🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал
Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.
Но всё самое интересное только начинается!
🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.
💸 Сейчас действует специальная цена → 69.000 ₽ вместо79.000 ₽.
⏳ Осталось всего 4 места.
Не упустите шанс прокачаться в том, что будет определять будущее индустрии.
👉 Забронировать место на курсе
Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.
Но всё самое интересное только начинается!
🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.
💸 Сейчас действует специальная цена → 69.000 ₽ вместо
⏳ Осталось всего 4 места.
Не упустите шанс прокачаться в том, что будет определять будущее индустрии.
👉 Забронировать место на курсе
🧠 Новые методы и исследования в AI
— Modular Manifolds — новый метод обучения нейросетей, ограничивающий веса на manifolds, делает обучение стабильнее и предсказуемее.
— We reverse-engineered Flash Attention 4 — разбор нового CUDA-ядра Flash Attention 4, ускоряющего трансформеры.
— LoRA Without Regret — LoRA в задачах Reinforcement Learning может соперничать с полноценным финетюнингом, если применять большие learning rate и использовать LoRA на всех слоях.
— Pre-training under infinite compute —новое исследование показывает, как регуляризация и ансамбли моделей могут компенсировать нехватку уникальных данных при масштабировании compute.
— Google DeepMind Dreamer 4 — Dreamer 4 обучается полностью внутри собственного world model, превосходит OpenAI VPT при 100× меньших данных и обходит Gemma-3 по эффективности.
⚙️ Практика и алгоритмы
— Борьба с дисбалансом классов: стандартные методы — обзор базовых техник балансировки данных: oversampling, undersampling, SMOTE и их вариации.
— Рекомендательные системы в современном мире — подходы, метрики и современные тренды в рекомендациях — от коллаборативной фильтрации до моделей на графах и нейросетях.
— Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов — необычный подход к обучению без backpropagation — обучение скрытых слоёв через прямые зависимости сигналов, что потенциально снижает вычислительные затраты.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
This media is not supported in your browser
VIEW IN TELEGRAM
🕒 Как создать Q&A датасет за 30 минут
Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Модель отвечает полезным советом:
Чтобы модель давала такие советы, нужно:
1️⃣ Взять open-source LLM (например, Llama 2, Falcon 7B).
2️⃣ Дообучить её на задаче финансового консультирования.
Но для этого нужен датасет пар (вход → ответ):
✅ Вход — текст пользователя с описанием целей и актуальными новостями.
✅ Выход — корректный финансовый совет на основе данных пользователя и новостей.
🚩 Подробная статья по созданию такого датасета
🐸 Библиотека дата-сайентиста
#буст
Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Мне 25 лет, я разработчик с стабильным доходом. Хочу начать инвестировать в акции для долгосрочного роста. С чего начать?
Модель отвечает полезным советом:
Начните с диверсифицированного портфеля акций в разных секторах. Сосредоточьтесь на технологических компаниях, но также рассмотрите здравоохранение, энергетику и потребительские товары. Инвестируйте в индексные фонды для снижения рисков. Можно также подумать о криптовалютах для дополнительной диверсификации.
Чтобы модель давала такие советы, нужно:
Но для этого нужен датасет пар (вход → ответ):
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
🟩 Типы матриц — шпаргалка
Зная тип матрицы, проще выбирать методы решения линейных уравнений.
🐸 Библиотека дата-сайентиста
#буст
Зная тип матрицы, проще выбирать методы решения линейных уравнений.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🥰3👍1
🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
🚩 Подробнее в детальной статье
🐸 Библиотека дата-сайентиста
#буст
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
cuDF
всё работает в десятки раз быстрее.Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy
Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.
⚡️ Пока скидка действует, апдейтни свои навыки
Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.
Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.
⚡️ Пока скидка действует, апдейтни свои навыки
🔥 LLMs с нуля: от базовой модели до RLHF на практике
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO
📱 Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA
🐸 Библиотека дата-сайентиста
#буст
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🎥 Смотреть: https://clc.to/5yvRlA
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍1
Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.
Полезно для дата-сайентистов:
Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
📱 Репозиторий: https://clc.to/fR5Lsw
🐸 Библиотека дата-сайентиста
#буст
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Все слышали про KL Divergence, но не все задумывались — почему дивергенция, а не расстояние?
Чтобы мера считалась distance, она должна быть:
Но KL Divergence: 🚫 несимметрична — Dₖₗ(P∥Q) ≠ Dₖₗ(Q∥P), поэтому это не метрика.
💡 Тогда почему дивергенция
Потому что она показывает, насколько одно распределение отклоняется от другого, а не насколько далеко в метрическом смысле.
Или проще: KL Divergence — это мера информационной разницы, а не физического расстояния.
📊 Визуализация отлично показывает её асимметрию — и почему при работе с распределениями важно, в каком порядке их подставлять.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
Кто первым ввёл термин machine learning в научный обиход?
Anonymous Quiz
27%
Джеффри Хинтон
17%
Артур Сэмюэл
40%
Алан Тьюринг
16%
Клод Шеннон
❤2
📊 Топ вопросов с Data Science собеседований — деревья решений и ансамбли, кластеризация, метрические модели. Отличная шпаргалка для подготовки к интервью.
⚖️ Борьба с дисбалансом классов: undersampling — подробный разбор техник уменьшения выборки для балансировки данных.
🧠 Как открытые веса раскрыли секреты обучения GPT-5 — исследователи проанализировали архитектуру и параметры GPT-5, чтобы понять, как OpenAI добилась новых уровней обобщения и стабильности.
👉 Омографы и ударения: как решают задачу в русском языке — команда исследователей создала модель, которая определяет правильные ударения и смысл омографов в текстах.
🌲 Ансамбли в действии: случайный лес и градиентный бустинг — интуитивное объяснение ансамблевых методов с визуализациями и примерами кода.
🧩 Оптимизация источников данных для ML-моделей — как выбирать, чистить и агрегировать данные, чтобы повысить качество модели и сократить время на обучение.
📚 130+ датасетов для машинного обучения — огромная подборка открытых наборов данных, отсортированных по тематике — от NLP до медицины и экономики.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
В proglib.academy — Глобальная распродажа знаний ‼️
💥 Весь октябрь –40% на те курсы, которые выбирают чаще всего.
👉 Успей забрать свой курс на proglib.academy
💥 Весь октябрь –40% на те курсы, которые выбирают чаще всего.
Курсы с практикой, без воды и пафоса.
Просто берёшь и делаешь апгрейд.
👉 Успей забрать свой курс на proglib.academy
Для ML-инженеров, исследователей и AI-разработчиков появился инструмент, который упрощает создание высококачественных и разнообразных датасетов для обучения моделей в масштабе.
Что делает DeepFabric:
Идеально подходит для:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1
📊 48 самых популярных открытых датасетов
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
🐸 Библиотека дата-сайентиста
#буст
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤩2