Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.37K photos
119 videos
64 files
4.82K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
📉 Распределение Коши — самое «упрямое» в статистике

У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.

😅 Да-да, никакого среднего значения у него нет — математика просто отказывается сходиться.

Почему это интересно:
— В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
— В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.

🔛 Распределение Коши — напоминание, что не всё поддаётся усреднению. Иногда хаос — это и есть закон.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4🔥2🥰1😢1
🍊 Orange Data Mining — визуальная аналитика без кода

Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).

Что можно делать:
— Загружать и исследовать данные
— Визуализировать зависимости
— Применять машинное обучение
— Строить интерактивные отчёты

🧩 Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.

Установка (несколько способов)

Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3


Через pip:
pip install orange3


После установки:
orange-canvas


или
python3 -m Orange.canvas


📱 GitHub

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2🥰1
💥 Октябрь — месяц апгрейда!

До конца этого месяца действует скидка 40% на все курсы Proglib Academy (кроме AI-агентов, ML для старта и математики).

Под акцию попал и наш хит — курс «Алгоритмы и структуры данных».

👨‍💻 Он подойдёт джунам, мидлам и всем, кто хочет писать код осознанно, а не наугад.

👨‍🏫 Преподаватели — инженеры из Яндекса и ВШЭ.

🎓 Сертификат по итогам обучения — в портфолио.

47 видеоуроков и 150 практических задач;
поддержка преподавателей и чат;
доступ к материалам на 12 месяцев.

Полная программа курса тут 👈

👉 Остальные курсы
😢1
⬇️ Почему MissForest ломается в задачах предсказания

Алгоритм MissForest отлично восстанавливает пропущенные данные, но в предиктивных моделях он даёт сбой — и дело не в коде, а в логике.

⚠️ Проблема: MissForest не сохраняет обученные модели после импутации. Из-за этого тестовые данные влияют на обучение, что приводит к утечке данных (data leakage) и искажённым метрикам.

Две типичные ошибки:
1️⃣ Объединять train и test перед импутацией — утечка данных
2️⃣ Импутировать отдельно — падает точность

Решение — MissForestPredict:
➡️ Он сохраняет обученные модели для каждой переменной
➡️ Можно обучить на train и честно применить к test — без утечки и переобучения.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32😁2😢1
This media is not supported in your browser
VIEW IN TELEGRAM
🐳 Docker за 2 минуты для Data Scientists

Даже если вы используете Docker каждый день, мало кто понимает, что происходит «под капотом».

Вот главное, что нужно знать:

1️⃣ Docker Client
— Вы вводите команды (docker run, docker build)
— Клиент общается с Docker Daemon через API

2️⃣ Docker Host
— Здесь работает Daemon
— Он строит образы, запускает контейнеры и управляет ресурсами

3️⃣ Docker Registry
— Хранит Docker-образы
— Docker Hub — публичный, компании часто используют приватные registry

⚡️ Что происходит, когда вы запускаете docker run:
1. Docker проверяет локальный кэш, если образа нет — скачивает из registry
2. Создаёт контейнер из образа
3. Выделяет read-write файловую систему для контейнера
4. Настраивает сетевой интерфейс
5. Запускает контейнер

Зачем это важно для DS:
✔️ Контейнеризация упрощает воспроизводимость экспериментов
✔️ Легче отлаживать ML-пайплайны и Jupyter-окружения
✔️ Docker позволяет масштабировать проекты и запускать модели на разных машинах

😉 Теперь вы знаете, где «смотреть», если что-то ломается в контейнере.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍73🔥2🎉1🙏1
🎥 Paper2Video — автоматическая генерация видео из научных статей

Paper2Video — это инструмент, который превращает научные статьи в видео автоматически.

Он анализирует текст, таблицы и изображения из PDF и создаёт короткий ролик, объясняющий содержание статьи.

🌍 Доступен на английском и китайском.

📱 Github

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰631👍1👏1🎉1
🆕 Свежие новости для дата‑сайентистов

🚀 Модели и обучение
Умный Early Stopping — новый подход к остановке обучения нейросетей: анализируем тренд, а не шум, чтобы избежать преждевременной остановки.
Передовые алгоритмы глубокого обучения — обзор современных DL-алгоритмов и архитектур, актуальных для 2025 года.
BERT — одноэтапная диффузия текста — новая интерпретация работы BERT через призму диффузионных моделей.

🛠 Практика и инструменты
Как автоматизировать тестирование батч-моделей —пошаговый гайд по организации тестов ML-моделей в пакетном режиме.
10 локальных UI для LLM — краткий обзор популярных интерфейсов для работы с LLM локально на ПК.
Coral NPU для Edge AI — Google представляет открытое решение для low-power AI на периферийных устройствах и wearables.
ChatGPT Atlas: браузер с встроенным ChatGPT — новый браузер превращает ChatGPT в супер-ассистента, объединяя инструменты, контекст и поиск в одном месте.

🧠 Карьерные и исследовательские наблюдения
Джун глазами синьора: 5 ошибок в резюме — какие ошибки снижают шансы попасть в ML-команду, и как их исправить.
Типичные DS-специалисты и роль ИИ — как часто DS используют AI для генерации кода и какие навыки остаются ключевыми.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1🔥1🥰1
🧠 Готовишься к собесам, а ноутбук еле тянет IDE?

Самое время прокачать скиллы и апгрейднуть железо!

Proglib Academy разыгрывает MacBook Pro 14 (M3 Pro, 36 GB, 1 TB SSD) 💻

Купи любой наш курс до 15 ноября → пройди 2 недели обучения → напиши куратору #розыгрыш. Всё, ты в игре!

📚 Среди курсов:

▫️ Алгоритмы и структуры данных — топ для подготовки к собесам в Яндекс и FAANG.

▫️ Архитектуры и шаблоны проектирования — чтобы думать как senior.

▫️ Python, математика для DS, основы IT и другие направления.

👉 Принять участие
Вы начали изучать Python, установили библиотеки, попробовали что-то запустить — и всё внезапно сломалось?

Не переживайте, это случалось с каждым. Просто вы не изолировали окружение. На открытом уроке курса «Machine Learning. Basic» мы разберём, как грамотно настроить виртуальное окружение, чтобы работать с Python и ML-библиотеками спокойно и системно.

Вы узнаете, что такое venv, conda и uv, как управлять зависимостями и подключать Jupyter Notebook к своему окружению. Настроим всё пошагово — без сложных терминов и магии.

➡️ Присоединяйтесь 28 октября в 20:00 (МСК). Уверенный старт в Python и машинном обучении начинается с чистого окружения. Регистрация открыта: https://clc.to/sec-CA

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
🔥1
📊 Underfitting vs Overfitting — простая шпаргалка

Сохраняем полезность! Когда обучаем модель, важно не сделать её слишком тупой и не слишком умной. Нужно балансировать.

🔛 Underfitting (недообучение): модель слишком простая, не уловила закономерности.

Признаки:
🌠 Высокая ошибка на train и test
🌠 График ошибок почти не улучшается

Как исправить:
🌠 Увеличить сложность модели
🌠 Добавить больше признаков
🌠 Дольше обучать

🔛 Overfitting (переобучение): модель выучила данные наизусть, но не умеет обобщать.

Признаки:
🌠 На train всё идеально
🌠 На test ошибка высокая

Как исправить:
🌠 Добавить регуляризацию
🌠 Упростить модель
🌠 Добавить данных или аугментацию
🌠 Использовать early stopping / dropout

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2🎉2
⚡️ Lightning запускает облако для PyTorch-разработчиков

Компания Lightning (PyTorch Lightning) представила новый набор инструментов для ускорения обучения моделей в облаке: распределённое обучение, reinforcement learning и эксперименты — всё в одном месте.

Что нового:
I code editor — помощь PyTorch-«экспертов» для быстрого кодинга, отладки и деплоя на GPU
Environments hub — интерактивные среды для RL и распределённого обучения, масштабируемые и самодостаточные
Meta integrations — запуск Monarch (distributed training), OpenEnv (RL среды) и torchforge (эксперименты RLHF)

✔️ Полезно для исследователей и разработчиков, которые хотят ускорить эксперименты и масштабировать модели без локальных ограничений.

👉 Ссылка

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🎁 Конкурс от Proglib Academy!

Кстати, если кто-то ещё не в курсе — у нас тут раздают MacBook Pro 14.
Да-да, не шутка, настоящий, железный, с M3 Pro

Но! Чтобы успеть пройти 2 недели обучения к 15 ноября, курс нужно взять до конца октября — и сейчас на всё скидка 40%.

Чтобы поучаствовать, нужно:

1️⃣ Покупаешь любой курс до конца октября;
2️⃣ Проходишь 2 недели обучения к 15 ноября;
3️⃣ Написать куратору в чат #розыгрыш.

До 15 ноября, потом всё — поезд (и макбук) уйдёт.

👉 Участвовать в розыгрыше