🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
🚩 Подробнее в детальной статье
🐸 Библиотека дата-сайентиста
#буст
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
cuDF всё работает в десятки раз быстрее.Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
🔥 LLMs с нуля: от базовой модели до RLHF на практике
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO
📱 Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA
🐸 Библиотека дата-сайентиста
#буст
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🎥 Смотреть: https://clc.to/5yvRlA
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍1
Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.
Полезно для дата-сайентистов:
Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
📱 Репозиторий: https://clc.to/fR5Lsw
🐸 Библиотека дата-сайентиста
#буст
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Все слышали про KL Divergence, но не все задумывались — почему дивергенция, а не расстояние?
Чтобы мера считалась distance, она должна быть:
Но KL Divergence: 🚫 несимметрична — Dₖₗ(P∥Q) ≠ Dₖₗ(Q∥P), поэтому это не метрика.
💡 Тогда почему дивергенция
Потому что она показывает, насколько одно распределение отклоняется от другого, а не насколько далеко в метрическом смысле.
Или проще: KL Divergence — это мера информационной разницы, а не физического расстояния.
📊 Визуализация отлично показывает её асимметрию — и почему при работе с распределениями важно, в каком порядке их подставлять.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
Для ML-инженеров, исследователей и AI-разработчиков появился инструмент, который упрощает создание высококачественных и разнообразных датасетов для обучения моделей в масштабе.
Что делает DeepFabric:
Идеально подходит для:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
📊 48 самых популярных открытых датасетов
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
🐸 Библиотека дата-сайентиста
#буст
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤩2
Андрей Карпаты представил NanoChat — минималистичный и лёгкий фреймворк для создания небольших LLM-чатов, похожих на ChatGPT.
Цель проекта — сделать обучение и запуск собственных языковых моделей максимально доступным и понятным.
NanoChat отлично подойдёт для обучения, исследований и кастомных решений на базе LLM:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥2👍1👏1
🔥 Alibaba выпускает «кулинарную книгу» по Qwen3-VL: от OCR до object grounding
Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.
👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.
➡️ Ссылка на cookbook
👍 Если хочешь прокачать базу, чтобы увереннее работать с моделями и пайплайнами — посмотри курс Математика для Data Science.
🐸 Библиотека дата-сайентиста
#буст
Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.
👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🎉2
NumPy — один из самых скачиваемых Python-пакетов, и теперь его type-completeness (покрытие типами) выросло с 33% до почти 90%.
Это огромный шаг для всей экосистемы Python и особенно для дата-сайнса.
Оказалось, что одна строчка исправления подняла покрытие типов с 33% до 80%:
# Было
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: CanIndex = 0) -> None: ...
# Стало
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: SupportsIndex = 0) -> None: ...
После этого внимание было уделено
MaskedArray, где типизация была всего 20%.Теперь — 100%:
>>> np.mean([x['isTypeKnown'] for x in exported if x['name'].startswith('numpy.ma.core.MaskedArray.')])
np.float64(1.0)Более полная типизация =
pandas, scikit-learn, xarray и др.)numpy.ma, уточнить перегрузки и добавить type-checker прямо в CI NumPy. Отличный шанс внести вклад в open source — довести NumPy до 100% тип-совместимости.#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2😁2
🎧 Как шпион на вечеринке: Independent Component Analysis (ICA)
Представьте: шумная вечеринка — десятки голосов, музыка, звон бокалов. Каждый микрофон записывает неразборчивую смесь всех звуков.
Но шпион, вооружённый Independent Component Analysis (ICA), извлекает из хаоса отдельные разговоры — как будто разделяет сигналы по смыслу.
Именно это делает ICA в данных: разделяет сложные многомерные сигналы на независимые компоненты.
Если PCA (Principal Component Analysis) ищет некоррелированные оси, то ICA идёт дальше — ищет статистически независимые источники.
Математически это выглядит так:
где,
🟰
🟰
🟰
ICA пытается найти матрицу
Главная идея — найти компоненты с максимальной негауссовостью, ведь по центральной предельной теореме сумма независимых переменных тяготеет к нормальному распределению.
Пример на Python:
После нахождения первой компоненты выполняется deflation, чтобы следующая была независима:
🟰 На практике: используйте FastICA — она оптимизирует все компоненты сразу и автоматически проводит whitening.
🗂 Подробная статья
🐸 Библиотека дата-сайентиста
#буст
Представьте: шумная вечеринка — десятки голосов, музыка, звон бокалов. Каждый микрофон записывает неразборчивую смесь всех звуков.
Но шпион, вооружённый Independent Component Analysis (ICA), извлекает из хаоса отдельные разговоры — как будто разделяет сигналы по смыслу.
Именно это делает ICA в данных: разделяет сложные многомерные сигналы на независимые компоненты.
Если PCA (Principal Component Analysis) ищет некоррелированные оси, то ICA идёт дальше — ищет статистически независимые источники.
Математически это выглядит так:
X = A * S
где,
X — наблюдаемые данные (смесь сигналов),A — матрица смешивания,S — исходные независимые компоненты.ICA пытается найти матрицу
W, такую что:S = W * X
Главная идея — найти компоненты с максимальной негауссовостью, ведь по центральной предельной теореме сумма независимых переменных тяготеет к нормальному распределению.
Пример на Python:
STEP_SIZE = 1e-3
N_ITERATIONS = 50
X_centered = X - np.mean(X, axis=0)
pca = PCA(whiten=True)
X_whitened = pca.fit_transform(X_centered)
n, m = X_whitened.shape
w1 = rng.rand(m)
w1 /= np.linalg.norm(w1) + 1e-10
for i in range(N_ITERATIONS):
s = np.dot(X_whitened, w1)
gradient = 4 / n * np.dot(np.pow(s, 3), X_whitened)
w1 += STEP_SIZE * gradient
w1 /= np.linalg.norm(w1) + 1e-10
После нахождения первой компоненты выполняется deflation, чтобы следующая была независима:
X_deflated = X_whitened - np.outer(np.dot(X_whitened, w1), w1)
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
Мы нашли мощный материал, который объясняет, как использовать модели ViT, DETR, BLIP и ViLT для самых базовых, но фундаментальных задач Computer Vision:
— Image Classification — классификация изображений с помощью Vision Transformer (ViT).
— Image Segmentation — точное выделение объектов на изображении с DETR и Mask2Former.
— Image Captioning — генерация описаний изображений с BLIP.
— Visual Question Answering (VQA) — ответы на вопросы по изображению с ViLT и BLIP.
💡 Хочешь разбираться в таких архитектурах глубже — с математикой, алгоритмами и практикой?
Сейчас в Proglib действует акция –40% на курс Математика для Data Science
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Наконец-то понятен self-attention
Одна из самых сложных частей понимания LLM — это self-attention. Формула выглядит простой — её можно быстро выучить.
Но что на самом деле означают Q, K и V и как они взаимодействуют — совсем другая история.
✅ Эта визуализация делает всё очень наглядным и понятным — видно, как queries обращаются к keys и получают нужные values.
🤨 Чтобы лучше понимать, как работают модели на математическом уровне, советуем курс Математика для Data Science.
🐸 Библиотека дата-сайентиста
#буст
Одна из самых сложных частей понимания LLM — это self-attention. Формула выглядит простой — её можно быстро выучить.
Но что на самом деле означают Q, K и V и как они взаимодействуют — совсем другая история.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥2
У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.
Почему это интересно:
— В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
— В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🔥2🥰1😢1
🍊 Orange Data Mining — визуальная аналитика без кода
Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).
Что можно делать:
— Загружать и исследовать данные
— Визуализировать зависимости
— Применять машинное обучение
— Строить интерактивные отчёты
🧩 Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.
Установка (несколько способов)
Через Conda (рекомендуется):
Через pip:
После установки:
или
📱 GitHub
🐸 Библиотека дата-сайентиста
#буст
Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).
Что можно делать:
— Загружать и исследовать данные
— Визуализировать зависимости
— Применять машинное обучение
— Строить интерактивные отчёты
🧩 Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.
Установка (несколько способов)
Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3
Через pip:
pip install orange3
После установки:
orange-canvas
или
python3 -m Orange.canvas
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥2🥰1
Алгоритм MissForest отлично восстанавливает пропущенные данные, но в предиктивных моделях он даёт сбой — и дело не в коде, а в логике.
Две типичные ошибки:
train и test перед импутацией — утечка данныхРешение — MissForestPredict:
train и честно применить к test — без утечки и переобучения.#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2😁2😢1