Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

1.95K views18:06

⚡️ Ускоряем Python-массивы с NumExpr: от 650 ms до 60 ms

Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
✅ Вычисления по чанкам прямо в кэше – массивы делятся на блоки и обрабатываются без создания временных копий.
✅ SIMD + Intel VML – задействует низкоуровневые инструкции и векторизацию.
✅ Мульти-кор ускорение – автоматически распределяет работу по всем ядрам, давая 5–15× прирост на сложных выражениях.

В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).

🔗

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

1.88K views10:18

🔍 AnomalyCLIP: новый шаг в видеоаналитике с помощью CLIP

Классические методы Video Anomaly Detection (VAD) умеют лишь находить что-то странное в кадре. Но в реальных системах этого мало.

Video Anomaly Recognition (VAR) идёт дальше — не просто сигнализирует о событии, а определяет какое именно произошло: кража, поджог, ДТП и т.д. Это превращает абстрактные алерты в осмысленные инсайты.

AnomalyCLIP использует возможности CLIP для распознавания аномалий:
➡️ без дорогой ручной разметки на уровне кадров,
➡️ с опорой на vision-language embeddings,
➡️ с инновациями вроде feature re-centering, semantic MIL и axial transformers.

Подробнее о том:
— почему старые подходы VAD больше не работают,
— как CLIP даёт семантическое понимание,
— чем AnomalyCLIP отличается от других решений,

👉 читайте в детальной статье.

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

1.98K views17:57

🔥 Все говорят про LLM и diffusion, а вот про OCR как будто забыли…

dots-ocr — свежая open-source модель (1.7B), которая вырывается в лидеры для распознавания документов:
✔️ 100+ языков (мультиязычный парсинг)
✔️ Работает и с PDF, и с изображениями
✔️ Понимает таблицы, формулы, структурированный текст
✔️ SOTA качество при полностью открытом коде

Теперь можно строить свои парсеры документов и аналитические пайплайны без дорогих проприетарных сервисов.

👍 Это прям ключ для дата-сайентистов, NLP/LLM инженеров и всех, кто работает с данными «в дикой природе».

📱

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1

2.25K views09:40

🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

Промокод на 5.000₽: LASTCALL

👉 Курс здесь

2.16K views15:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое «Data Swamp»?

Anonymous Quiz

12%

Хорошо структурированное хранилище

66%

Хаотичный Data Lake без документации

Система визуализации

17%

Метод очистки данных

❤1

349 voters1.99K views06:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14👍1

2.01K views13:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Самый быстрый движок для сервинга LLM уже тут — и он open-source

LMCache — новый движок, созданный для:
➡️ мгновенного time-to-first-token;
➡️ ыыше throughput даже при длинных контекстах;
➡️ 7× быстрее доступа к KV-кешам и поддержка 100× большего объёма кеша по сравнению с vLLM;
➡️ и всё это — полностью open-source.

Если вы работаете с LLM в продакшне, LMCache может стать настоящим гейм-чейнджером для latency-чувствительных приложений.

📱

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥1

2.36K views18:42

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.01K views07:23

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤2🤔2

352 voters2K views07:23

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Началось

1.75K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍4🔥1🤔1💯1

1.96K views19:13

🎯 Как получить работу в DeepMind без степени по машинному обучению

DeepMind — одна из лучших AI-лабораторий в мире (а может и лучшая). Один инженер поделился историей, как он получил там позицию Research Engineer — без PhD, магистратуры или формального образования в ML.

👉 Только бакалавриат в Electrical Engineering
👉 Первое знакомство с программированием — в 19 лет
👉 Первые шаги в ML — в 2018
👉 Всё остальное — самообразование, проекты и упорная работа

В статье он раскрывает:
— Почему отказался от магистратуры
— Как выстроил собственную ML-программу обучения
— Как готовился к DeepMind и получил referral
— Делится даже резюме и практическими советами

💡 Главный инсайт: формальный диплом не обязателен, если у вас есть сильная база, проекты и дисциплина.

🔗 Читать статью + смотреть видео

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍7

1.95K views09:17

🤖 ТОП-9 AI-агентов для разработки в 2025 году

Сегодня разработчики всё реже пишут код «с нуля» — вместо этого они управляют AI-агентами, которые берут на себя рутину: автодополнение, отладка, написание тестов, генерация модулей и даже целых приложений.

В статье:
— какие инструменты реально экономят часы работы,
— чем AI-агенты заменяют ручное кодирование,
— и почему без них легко оказаться «на шаг позади».

Если вы до сих пор думаете, что AI — это только про «подсказки в редакторе», пора обновить картину: экосистема агентных инструментов уже меняет сам подход к разработке.

🔗

Ссылка на статью

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.01K views17:35

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15❤1💯1

1.72K views09:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

➡️

Zerve AI: Cursor для дата-сайентистов

Классические IDE создавались под разработчиков ПО, а не под исследователей данных. В итоге: ноутбуки ломаются, ядра крашатся, а хаос в данных тормозит прогресс.

Zerve AI — это агентная среда разработки для дата-сайентистов:
⏩ Генерирует код и оркестрирует вычисления
⏩ Подстраивается под твой воркфлоу
⏩ Дает полный контроль: предпросмотр данных, редактирование кода, настройка compute

Что внутри:
▶️ Отслеживание данных и кода на каждом шаге
▶️ Масштабирование от одного эксперимента до тысяч параллельно
▶️ Версионирование всех артефактов и результатов
▶️ Превращение воркфлоу в API или интерфейсы
▶️ Деплой в облаке, on-prem или self-hosted

📱

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2

2K views17:44

🔥 Out-of-Memory ошибки? Пора включать Multi-GPU!

Когда одной видеокарты уже не хватает — мульти-GPU операции превращают разрозненные GPU в единую вычислительную машину:
— Масштабное обучение без ограничений
— Резкое сокращение времени тренировки
— Возможность запускать модели, которые раньше были «слишком большими»

🔹 Что такое Multi-GPU операции
Это фундамент распределенного обучения: модель тренируется сразу на нескольких GPU.

Есть два основных подхода:
— Data Parallelism → данные делятся между GPU, обновления синхронизируются
— Model Parallelism → модель «разрезается» и распределяется между картами

Инструменты:
— PyTorch Distributed — стандарт для мульти-GPU тренинга
— nbdistributed — позволяет делать всё прямо в Jupyter

Ключевые операции (то, как GPU общаются между собой):
— Send → отправка тензора GPU → GPU
—Scatter → разбивка тензора на части и рассылка
— Broadcast → копия тензора на все устройства
— Gather → сбор тензоров в один
— Reduce → сбор + функция → результат на одной GPU
— All-Reduce → то же самое, но результат у всех

⚡️ Multi-GPU — это не только скорость. Это доступ к моделям, которые раньше были просто невозможны.

🐸

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2

1.72K views09:46

0:07