Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.8K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал

Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.

Но всё самое интересное только начинается!

🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.

💸 Сейчас действует специальная цена → 69.000 ₽ вместо 79.000 ₽.

Осталось всего 4 места.

Не упустите шанс прокачаться в том, что будет определять будущее индустрии.

👉 Забронировать место на курсе
🆕 Свежие новости для дата‑сайентистов

🧠 Новые методы и исследования в AI
Modular Manifolds — новый метод обучения нейросетей, ограничивающий веса на manifolds, делает обучение стабильнее и предсказуемее.
We reverse-engineered Flash Attention 4 — разбор нового CUDA-ядра Flash Attention 4, ускоряющего трансформеры.
LoRA Without Regret — LoRA в задачах Reinforcement Learning может соперничать с полноценным финетюнингом, если применять большие learning rate и использовать LoRA на всех слоях.
Pre-training under infinite compute —новое исследование показывает, как регуляризация и ансамбли моделей могут компенсировать нехватку уникальных данных при масштабировании compute.
Google DeepMind Dreamer 4 — Dreamer 4 обучается полностью внутри собственного world model, превосходит OpenAI VPT при 100× меньших данных и обходит Gemma-3 по эффективности.

⚙️ Практика и алгоритмы
Борьба с дисбалансом классов: стандартные методы — обзор базовых техник балансировки данных: oversampling, undersampling, SMOTE и их вариации.
Рекомендательные системы в современном мире — подходы, метрики и современные тренды в рекомендациях — от коллаборативной фильтрации до моделей на графах и нейросетях.
Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов — необычный подход к обучению без backpropagation — обучение скрытых слоёв через прямые зависимости сигналов, что потенциально снижает вычислительные затраты.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
This media is not supported in your browser
VIEW IN TELEGRAM
🕒 Как создать Q&A датасет за 30 минут

Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Мне 25 лет, я разработчик с стабильным доходом. Хочу начать инвестировать в акции для долгосрочного роста. С чего начать?


Модель отвечает полезным советом:
Начните с диверсифицированного портфеля акций в разных секторах. Сосредоточьтесь на технологических компаниях, но также рассмотрите здравоохранение, энергетику и потребительские товары. Инвестируйте в индексные фонды для снижения рисков. Можно также подумать о криптовалютах для дополнительной диверсификации.


Чтобы модель давала такие советы, нужно:
1️⃣ Взять open-source LLM (например, Llama 2, Falcon 7B).
2️⃣ Дообучить её на задаче финансового консультирования.

Но для этого нужен датасет пар (вход → ответ):
Вход — текст пользователя с описанием целей и актуальными новостями.
Выход — корректный финансовый совет на основе данных пользователя и новостей.

🚩 Подробная статья по созданию такого датасета

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🟩 Типы матриц — шпаргалка

Зная тип матрицы, проще выбирать методы решения линейных уравнений.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5🥰3👍1
🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных

За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.

Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:

1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.

2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.

3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с cuDF всё работает в десятки раз быстрее.

4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.

5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.

7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.

🚩 Подробнее в детальной статье

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32
💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy

Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.

Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.


⚡️ Пока скидка действует, апдейтни свои навыки
🔥 LLMs с нуля: от базовой модели до RLHF на практике

Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).

Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.

Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO

📱 Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍1
Быстрый способ увидеть все зависимости Python-пакета

Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.

Полезно для дата-сайентистов:
😗 Офлайн-установки — особенно на изолированных серверах
😗 Экономия времени — мгновенный список всех зависимостей и их подзависимостей
😗 Аудит пакетов — быстро понять, что реально подтягивает пакет

Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных

Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.

💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.

📱 Репозиторий: https://clc.to/fR5Lsw

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔎 KL Divergence ≠ Distance Metric

Все слышали про KL Divergence, но не все задумывались — почему дивергенция, а не расстояние?

Чтобы мера считалась distance, она должна быть:
неотрицательной
симметричной
равной нулю, если P = Q
и соблюдать неравенство треугольника

Но KL Divergence: 🚫 несимметрична — Dₖₗ(P∥Q) ≠ Dₖₗ(Q∥P), поэтому это не метрика.

💡 Тогда почему дивергенция

Потому что она показывает, насколько одно распределение отклоняется от другого, а не насколько далеко в метрическом смысле.

Или проще: KL Divergence — это мера информационной разницы, а не физического расстояния.

📊 Визуализация отлично показывает её асимметрию — и почему при работе с распределениями важно, в каком порядке их подставлять.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
🆕 Свежие новости для дата‑сайентистов

📊 Топ вопросов с Data Science собеседований — деревья решений и ансамбли, кластеризация, метрические модели. Отличная шпаргалка для подготовки к интервью.

⚖️ Борьба с дисбалансом классов: undersampling — подробный разбор техник уменьшения выборки для балансировки данных.

🧠 Как открытые веса раскрыли секреты обучения GPT-5 — исследователи проанализировали архитектуру и параметры GPT-5, чтобы понять, как OpenAI добилась новых уровней обобщения и стабильности.

👉 Омографы и ударения: как решают задачу в русском языке — команда исследователей создала модель, которая определяет правильные ударения и смысл омографов в текстах.

🌲 Ансамбли в действии: случайный лес и градиентный бустинг — интуитивное объяснение ансамблевых методов с визуализациями и примерами кода.

🧩 Оптимизация источников данных для ML-моделей — как выбирать, чистить и агрегировать данные, чтобы повысить качество модели и сократить время на обучение.

📚 130+ датасетов для машинного обучения — огромная подборка открытых наборов данных, отсортированных по тематике — от NLP до медицины и экономики.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
В proglib.academy — Глобальная распродажа знаний ‼️

💥 Весь октябрь –40% на те курсы, которые выбирают чаще всего.

Курсы с практикой, без воды и пафоса.
Просто берёшь и делаешь апгрейд.


👉 Успей забрать свой курс на proglib.academy
📌 DeepFabric — генерация синтетических датасетов на новом уровне

Для ML-инженеров, исследователей и AI-разработчиков появился инструмент, который упрощает создание высококачественных и разнообразных датасетов для обучения моделей в масштабе.

Что делает DeepFabric:
🔜 Легко превращает идеи и темы в структурированные данные, готовые к обучению моделей.
🔜 Избавляет от проблем с Tool Calls и неструктурированными формами — данные сразу консистентные и стандартизированные.
🔜 Подходит как для fine-tuning, так и для оценки моделей.

Идеально подходит для:
🔜 Быстрой генерации больших объемов обучающих данных.
🔜 Создания синтетических датасетов для NLP, диалогов, reasoning и function-calling задач.
🔜 Исследований и экспериментов с ML-моделями без ручного коллекшена данных.

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
📊 48 самых популярных открытых датасетов

Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤩2