Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
▶️ Ускорение PyTorch-инференса на Apple-устройствах

Инженеры показали, что искусственный интеллект может автоматически генерировать оптимизированные GPU-ядра для Metal, что в среднем ускоряет выполнение PyTorch-моделей на устройствах Apple на 87% (по результатам тестов на 215 модулях).

⚡️ В некоторых случаях ускорение оказалось в сотни раз быстрее по сравнению с базовым исполнением.

Как это работает:
➡️ используется агентный рой (agentic swarm) вместо одного модели,
➡️ система получает дополнительный контекст (CUDA-референсы, профилирование),
➡️ за счёт этого AI генерирует более производительные Metal-ядра, чем если бы это делала одиночная модель.

Результат: PyTorch на Mac и iOS становится ближе к полноценному high-performance inference, открывая дорогу для реальных AI-приложений без внешних GPU.

🔗 Подробная и полезная статья

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
⚡️ Ускоряем Python-массивы с NumExpr: от 650 ms до 60 ms

Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
Вычисления по чанкам прямо в кэше – массивы делятся на блоки и обрабатываются без создания временных копий.
SIMD + Intel VML – задействует низкоуровневые инструкции и векторизацию.
Мульти-кор ускорение – автоматически распределяет работу по всем ядрам, давая 5–15× прирост на сложных выражениях.

В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).

🔗 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 AnomalyCLIP: новый шаг в видеоаналитике с помощью CLIP

Классические методы Video Anomaly Detection (VAD) умеют лишь находить что-то странное в кадре. Но в реальных системах этого мало.

Video Anomaly Recognition (VAR) идёт дальше — не просто сигнализирует о событии, а определяет какое именно произошло: кража, поджог, ДТП и т.д. Это превращает абстрактные алерты в осмысленные инсайты.

AnomalyCLIP использует возможности CLIP для распознавания аномалий:
➡️ без дорогой ручной разметки на уровне кадров,
➡️ с опорой на vision-language embeddings,
➡️ с инновациями вроде feature re-centering, semantic MIL и axial transformers.

Подробнее о том:
— почему старые подходы VAD больше не работают,
— как CLIP даёт семантическое понимание,
— чем AnomalyCLIP отличается от других решений,

👉 читайте в детальной статье.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Все говорят про LLM и diffusion, а вот про OCR как будто забыли…

dots-ocr — свежая open-source модель (1.7B), которая вырывается в лидеры для распознавания документов:
✔️ 100+ языков (мультиязычный парсинг)
✔️ Работает и с PDF, и с изображениями
✔️ Понимает таблицы, формулы, структурированный текст
✔️ SOTA качество при полностью открытом коде

Теперь можно строить свои парсеры документов и аналитические пайплайны без дорогих проприетарных сервисов.

👍 Это прям ключ для дата-сайентистов, NLP/LLM инженеров и всех, кто работает с данными «в дикой природе».

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1
🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

Промокод на 5.000₽: LASTCALL

👉 Курс здесь
⚡️ Самый быстрый движок для сервинга LLM уже тут — и он open-source

LMCache — новый движок, созданный для:
➡️ мгновенного time-to-first-token;
➡️ ыыше throughput даже при длинных контекстах;
➡️ 7× быстрее доступа к KV-кешам и поддержка 100× большего объёма кеша по сравнению с vLLM;
➡️ и всё это — полностью open-source.

Если вы работаете с LLM в продакшне, LMCache может стать настоящим гейм-чейнджером для latency-чувствительных приложений.

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥1
🎯 Как получить работу в DeepMind без степени по машинному обучению

DeepMind — одна из лучших AI-лабораторий в мире (а может и лучшая). Один инженер поделился историей, как он получил там позицию Research Engineer — без PhD, магистратуры или формального образования в ML.

👉 Только бакалавриат в Electrical Engineering
👉 Первое знакомство с программированием — в 19 лет
👉 Первые шаги в ML — в 2018
👉 Всё остальное — самообразование, проекты и упорная работа

В статье он раскрывает:
— Почему отказался от магистратуры
— Как выстроил собственную ML-программу обучения
— Как готовился к DeepMind и получил referral
— Делится даже резюме и практическими советами

💡 Главный инсайт: формальный диплом не обязателен, если у вас есть сильная база, проекты и дисциплина.

🔗 Читать статью + смотреть видео

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍7
🤖 ТОП-9 AI-агентов для разработки в 2025 году

Сегодня разработчики всё реже пишут код «с нуля» — вместо этого они управляют AI-агентами, которые берут на себя рутину: автодополнение, отладка, написание тестов, генерация модулей и даже целых приложений.

В статье:
— какие инструменты реально экономят часы работы,
— чем AI-агенты заменяют ручное кодирование,
— и почему без них легко оказаться «на шаг позади».

Если вы до сих пор думаете, что AI — это только про «подсказки в редакторе», пора обновить картину: экосистема агентных инструментов уже меняет сам подход к разработке.

🔗 Ссылка на статью

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Zerve AI: Cursor для дата-сайентистов

Классические IDE создавались под разработчиков ПО, а не под исследователей данных. В итоге: ноутбуки ломаются, ядра крашатся, а хаос в данных тормозит прогресс.

Zerve AI — это агентная среда разработки для дата-сайентистов:
Генерирует код и оркестрирует вычисления
Подстраивается под твой воркфлоу
Дает полный контроль: предпросмотр данных, редактирование кода, настройка compute

Что внутри:
▶️ Отслеживание данных и кода на каждом шаге
▶️ Масштабирование от одного эксперимента до тысяч параллельно
▶️ Версионирование всех артефактов и результатов
▶️ Превращение воркфлоу в API или интерфейсы
▶️ Деплой в облаке, on-prem или self-hosted

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
🔥 Out-of-Memory ошибки? Пора включать Multi-GPU!

Когда одной видеокарты уже не хватает — мульти-GPU операции превращают разрозненные GPU в единую вычислительную машину:
— Масштабное обучение без ограничений
— Резкое сокращение времени тренировки
— Возможность запускать модели, которые раньше были «слишком большими»

🔹 Что такое Multi-GPU операции
Это фундамент распределенного обучения: модель тренируется сразу на нескольких GPU.

Есть два основных подхода:
— Data Parallelism → данные делятся между GPU, обновления синхронизируются
— Model Parallelism → модель «разрезается» и распределяется между картами

Инструменты:
— PyTorch Distributed — стандарт для мульти-GPU тренинга
— nbdistributed — позволяет делать всё прямо в Jupyter

Ключевые операции (то, как GPU общаются между собой):
— Send → отправка тензора GPU → GPU
—Scatter → разбивка тензора на части и рассылка
— Broadcast → копия тензора на все устройства
— Gather → сбор тензоров в один
— Reduce → сбор + функция → результат на одной GPU
— All-Reduce → то же самое, но результат у всех

⚡️ Multi-GPU — это не только скорость. Это доступ к моделям, которые раньше были просто невозможны.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
📅 24 сентября в 19:00 МСК — бесплатный вебинар с Максимом Шаланкиным.

Тема: «ИИ-агенты: новая фаза развития искусственного интеллекта».

🔹 Почему все говорят про ИИ-агентов и куда вливаются миллиарды инвестиций.
🔹 Чем они отличаются от ChatGPT и обычных ботов.
🔹 Как работает цикл агента: восприятие → планирование → действие → обучение.
🔹 Живое демо простого агента.
🔹 Потенциал для бизнеса: автоматизация процессов и ROI до 80%.

Не придёшь — будешь потом рассказывать, что «агенты — это как чат-боты», и ловить косые взгляды от коллег 😏

👉 Регистрируйтесь через форму на лендинге
⚡️ Polars теперь с поддержкой GPU — ускорение до 70%

Библиотека Polars получила новый GPU-движок на базе NVIDIA RAPIDS cuDF.

Это значит, что тяжёлые аналитические пайплайны теперь можно прогонять в разы быстрее, используя параллельную обработку данных на GPU.

✔️ В бета-версии уже поддерживаются основные операции
✔️ Ускорение до 70% по сравнению с CPU-исполнением
✔️ Отлично подходит для задач работы с большими датасетами и аналитических воркфлоу

🔗 Подробнее в посте

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍1