Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Иногда реально ощущение, что нас держат в Матрице.

Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.

Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.

Кто готов вырваться из симуляции и ворваться в сезон найма?

👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно

👉 Забронируй место сейчас
1
🔥 AI и неструктурированные данные: возможности для дата-сайентистов

Google Cloud выпустил практическое руководство по Data Science, где показываются реальные кейсы применения AI для работы с корпоративными данными.

Вот что вы можете делать с такими данными:
▫️ Выявлять причины падения продаж — AI анализирует отзывы клиентов и говорит, какие функции продукта надо улучшить.
▫️ Создать визуальный поиск — клиенты находят товар по картинке, а не по тексту.
▫️ Автоматизировать анализ контрактов — извлекать ключевую информацию из юридических документов за секунды.
▫️ Прогнозировать спрос — точные прогнозы для каждого продукта и магазина, чтобы избежать потерь и перепроизводства.

Это огромная возможность: неструктурированные данные больше не головная боль — это источник инсайтов и новых моделей.

🔗 Ссылка на гайд

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
👇 4 ключевые архитектуры нейросетей

Выбор правильной архитектуры под задачу — это половина успеха в AI-проектах. Каждая из них рождена под конкретный тип данных и обрабатывает информацию по-своему:

1️⃣ CNN (Convolutional Neural Networks)
Фильтры свёртки находят края и паттерны в изображениях, pooling снижает размерность, fully connected слои собирают фичи в прогноз. Отлично подходят для распознавания изображений, медицинских снимков и любых задач со spatial-отношениями.

2️⃣ RNN (Recurrent Neural Networks)
Обрабатывают данные по шагам, сохраняя скрытое состояние с контекстом. Хорошо работают с текстом, временными рядами, переводами и прогнозами, где важен порядок.

3️⃣ Transformers
Заменили пошаговую обработку механизмом внимания: модель смотрит на всю последовательность сразу и решает, что важнее. Это быстрее и эффективнее для long-range зависимостей. На трансформерах построены GPT, BERT и большинство современных LLM.

4️⃣ GNN (Graph Neural Networks)
Передают информацию между узлами в графе (message passing), захватывая локальные и глобальные связи. Подходят для анализа соцсетей, молекулярных свойств и рекомендательных систем.

Архитектура выбирается под структуру данных:
➡️ Картинки → CNN
➡️ Последовательности → RNN/Transformers
➡️ Графы → GNN

А в реальных проектах часто комбинируют несколько: CNN для feature extraction + Transformer для reasoning, или GNN для связей между пользователями + RNN для рекомендаций.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
➡️ Курс от Stanford: Deep Learning for Computer Vision

Один из самых культовых курсов по компьютерному зрению от профессора Fei-Fei Li и Ehsan Adeli доступен в свежей записи!

Курс охватывает всё: от базовых линейных классификаторов до современных моделей — Transformers, GAN'ы, 3D-зрение и робототехника.

👌 Если хотите системно прокачаться в CV и DL, это must-watch!

🔗 Плейлист на YouTube: https://clc.to/sm583w

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1
▶️ Ускорение PyTorch-инференса на Apple-устройствах

Инженеры показали, что искусственный интеллект может автоматически генерировать оптимизированные GPU-ядра для Metal, что в среднем ускоряет выполнение PyTorch-моделей на устройствах Apple на 87% (по результатам тестов на 215 модулях).

⚡️ В некоторых случаях ускорение оказалось в сотни раз быстрее по сравнению с базовым исполнением.

Как это работает:
➡️ используется агентный рой (agentic swarm) вместо одного модели,
➡️ система получает дополнительный контекст (CUDA-референсы, профилирование),
➡️ за счёт этого AI генерирует более производительные Metal-ядра, чем если бы это делала одиночная модель.

Результат: PyTorch на Mac и iOS становится ближе к полноценному high-performance inference, открывая дорогу для реальных AI-приложений без внешних GPU.

🔗 Подробная и полезная статья

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
⚡️ Ускоряем Python-массивы с NumExpr: от 650 ms до 60 ms

Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
Вычисления по чанкам прямо в кэше – массивы делятся на блоки и обрабатываются без создания временных копий.
SIMD + Intel VML – задействует низкоуровневые инструкции и векторизацию.
Мульти-кор ускорение – автоматически распределяет работу по всем ядрам, давая 5–15× прирост на сложных выражениях.

В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).

🔗 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 AnomalyCLIP: новый шаг в видеоаналитике с помощью CLIP

Классические методы Video Anomaly Detection (VAD) умеют лишь находить что-то странное в кадре. Но в реальных системах этого мало.

Video Anomaly Recognition (VAR) идёт дальше — не просто сигнализирует о событии, а определяет какое именно произошло: кража, поджог, ДТП и т.д. Это превращает абстрактные алерты в осмысленные инсайты.

AnomalyCLIP использует возможности CLIP для распознавания аномалий:
➡️ без дорогой ручной разметки на уровне кадров,
➡️ с опорой на vision-language embeddings,
➡️ с инновациями вроде feature re-centering, semantic MIL и axial transformers.

Подробнее о том:
— почему старые подходы VAD больше не работают,
— как CLIP даёт семантическое понимание,
— чем AnomalyCLIP отличается от других решений,

👉 читайте в детальной статье.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Все говорят про LLM и diffusion, а вот про OCR как будто забыли…

dots-ocr — свежая open-source модель (1.7B), которая вырывается в лидеры для распознавания документов:
✔️ 100+ языков (мультиязычный парсинг)
✔️ Работает и с PDF, и с изображениями
✔️ Понимает таблицы, формулы, структурированный текст
✔️ SOTA качество при полностью открытом коде

Теперь можно строить свои парсеры документов и аналитические пайплайны без дорогих проприетарных сервисов.

👍 Это прям ключ для дата-сайентистов, NLP/LLM инженеров и всех, кто работает с данными «в дикой природе».

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1
🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

Промокод на 5.000₽: LASTCALL

👉 Курс здесь
⚡️ Самый быстрый движок для сервинга LLM уже тут — и он open-source

LMCache — новый движок, созданный для:
➡️ мгновенного time-to-first-token;
➡️ ыыше throughput даже при длинных контекстах;
➡️ 7× быстрее доступа к KV-кешам и поддержка 100× большего объёма кеша по сравнению с vLLM;
➡️ и всё это — полностью open-source.

Если вы работаете с LLM в продакшне, LMCache может стать настоящим гейм-чейнджером для latency-чувствительных приложений.

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥1
🎯 Как получить работу в DeepMind без степени по машинному обучению

DeepMind — одна из лучших AI-лабораторий в мире (а может и лучшая). Один инженер поделился историей, как он получил там позицию Research Engineer — без PhD, магистратуры или формального образования в ML.

👉 Только бакалавриат в Electrical Engineering
👉 Первое знакомство с программированием — в 19 лет
👉 Первые шаги в ML — в 2018
👉 Всё остальное — самообразование, проекты и упорная работа

В статье он раскрывает:
— Почему отказался от магистратуры
— Как выстроил собственную ML-программу обучения
— Как готовился к DeepMind и получил referral
— Делится даже резюме и практическими советами

💡 Главный инсайт: формальный диплом не обязателен, если у вас есть сильная база, проекты и дисциплина.

🔗 Читать статью + смотреть видео

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍7
🤖 ТОП-9 AI-агентов для разработки в 2025 году

Сегодня разработчики всё реже пишут код «с нуля» — вместо этого они управляют AI-агентами, которые берут на себя рутину: автодополнение, отладка, написание тестов, генерация модулей и даже целых приложений.

В статье:
— какие инструменты реально экономят часы работы,
— чем AI-агенты заменяют ручное кодирование,
— и почему без них легко оказаться «на шаг позади».

Если вы до сих пор думаете, что AI — это только про «подсказки в редакторе», пора обновить картину: экосистема агентных инструментов уже меняет сам подход к разработке.

🔗 Ссылка на статью

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2