🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
🚩 Подробнее в детальной статье
🐸 Библиотека дата-сайентиста
#буст
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
cuDF всё работает в десятки раз быстрее.Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
🔥 LLMs с нуля: от базовой модели до RLHF на практике
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO
📱 Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA
🐸 Библиотека дата-сайентиста
#буст
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🎥 Смотреть: https://clc.to/5yvRlA
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍1
Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.
Полезно для дата-сайентистов:
Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
📱 Репозиторий: https://clc.to/fR5Lsw
🐸 Библиотека дата-сайентиста
#буст
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Все слышали про KL Divergence, но не все задумывались — почему дивергенция, а не расстояние?
Чтобы мера считалась distance, она должна быть:
Но KL Divergence: 🚫 несимметрична — Dₖₗ(P∥Q) ≠ Dₖₗ(Q∥P), поэтому это не метрика.
💡 Тогда почему дивергенция
Потому что она показывает, насколько одно распределение отклоняется от другого, а не насколько далеко в метрическом смысле.
Или проще: KL Divergence — это мера информационной разницы, а не физического расстояния.
📊 Визуализация отлично показывает её асимметрию — и почему при работе с распределениями важно, в каком порядке их подставлять.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
Для ML-инженеров, исследователей и AI-разработчиков появился инструмент, который упрощает создание высококачественных и разнообразных датасетов для обучения моделей в масштабе.
Что делает DeepFabric:
Идеально подходит для:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
📊 48 самых популярных открытых датасетов
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
🐸 Библиотека дата-сайентиста
#буст
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤩2
Андрей Карпаты представил NanoChat — минималистичный и лёгкий фреймворк для создания небольших LLM-чатов, похожих на ChatGPT.
Цель проекта — сделать обучение и запуск собственных языковых моделей максимально доступным и понятным.
NanoChat отлично подойдёт для обучения, исследований и кастомных решений на базе LLM:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥2👍1👏1
🔥 Alibaba выпускает «кулинарную книгу» по Qwen3-VL: от OCR до object grounding
Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.
👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.
➡️ Ссылка на cookbook
👍 Если хочешь прокачать базу, чтобы увереннее работать с моделями и пайплайнами — посмотри курс Математика для Data Science.
🐸 Библиотека дата-сайентиста
#буст
Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.
👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🎉2
NumPy — один из самых скачиваемых Python-пакетов, и теперь его type-completeness (покрытие типами) выросло с 33% до почти 90%.
Это огромный шаг для всей экосистемы Python и особенно для дата-сайнса.
Оказалось, что одна строчка исправления подняла покрытие типов с 33% до 80%:
# Было
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: CanIndex = 0) -> None: ...
# Стало
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: SupportsIndex = 0) -> None: ...
После этого внимание было уделено
MaskedArray, где типизация была всего 20%.Теперь — 100%:
>>> np.mean([x['isTypeKnown'] for x in exported if x['name'].startswith('numpy.ma.core.MaskedArray.')])
np.float64(1.0)Более полная типизация =
pandas, scikit-learn, xarray и др.)numpy.ma, уточнить перегрузки и добавить type-checker прямо в CI NumPy. Отличный шанс внести вклад в open source — довести NumPy до 100% тип-совместимости.#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2😁2