Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.8K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
♾️ 17 формул, которые изменили мир

Математика в действии — как уравнения, придуманные века назад, сегодня управляют интернетом, медициной, космосом и вашими финансами.

📎 Читать статью

А если после статьи захотите разобраться, как эта математика работает в Data Science — вот экспресс-курс, который всё расставит по полочкам:

«Математика для Data Science»
— практика и живые уроки
— разбор кода и проверка домашних
— поддержка в Telegram-чате


🎓 За 2 месяца поймёте, как работают алгоритмы ML под капотом.
🗓️ Старт — 6 ноября

👉 Записаться на курс
🆕 Свежие новости для дата‑сайентистов

🖥 Модели и инфраструктура
Andrej Karpathy запускает nanochat — новый лёгкий фреймворк для сборки маленьких ChatGPT-подобных моделей.
Внутри vLLM — подробный разбор архитектуры и оптимизаций движка vLLM.

📘 Обучение и теория
The Ultimate Guide to Fine-Tuning LLMs — бесплатная 115-страничная книга, охватывающая всю теорию Fine-Tuning моделей.
Stanford: разнообразие без переобучения — исследователи из Стэнфорда представили Verbalized Sampling — метод промптинга, который восстанавливает вариативность базовых моделей и повышает качество без дообучения.

🧩 Практика и примеры
Как построить RAG-систему за вечер — практическое руководство по сборке Retrieval-Augmented Generation.
Как оценить качество машинного перевода — метрики BLEU, METEOR, TER и современные ML-подходы к оценке качества перевода.

📊 Исследования и размышления
Почему линейная регрессия всё ещё обыгрывает трансформеры — разбор причин, по которым классические методы остаются лучшими для временных рядов.
Andrej Karpathy: AGI ещё не скоро — всвежем интервью Карпати рассуждает о будущем AGI, провале RL.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🎉21
Сегодня последний день!

🎁 Только при оплате до 19 октября — курс «Базовая математика» в подарок!

Успей попасть на экспресс-курс «Математика для Data Science»10 живых вебинаров, практика на Python, поддержка менторов и преподаватели из ВШЭ, Яндекс Практикума и Wildberries.

За 2 месяца разберёшься с тем, на чём держится Data Science:
• векторы, матрицы и регрессия;
• градиенты, оптимизация, вероятности и статистика;
• реальные задачи анализа данных;


🎓 Построишь математический фундамент и поймёшь, как работают алгоритмы ML под капотом.

👉 Записаться на курс

Старт — 6 ноября, не упусти бонус!🎁
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Наконец-то понятен self-attention

Одна из самых сложных частей понимания LLM — это self-attention. Формула выглядит простой — её можно быстро выучить.

Но что на самом деле означают Q, K и V и как они взаимодействуют — совсем другая история.

Эта визуализация делает всё очень наглядным и понятным — видно, как queries обращаются к keys и получают нужные values.

🤨 Чтобы лучше понимать, как работают модели на математическом уровне, советуем курс Математика для Data Science.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2
🔥 Когда понимаешь SOLID — жизнь становится проще

В октябре действует скидка 40% на все курсы от Proglib Academy, включая интенсив «Архитектуры и шаблоны проектирования»

📘 На интенсиве ты:

— разберёшься, как проектировать приложения, которые не ломаются при каждом изменении;
— освоишь SOLID-принципы, IoC, адаптеры и фабрики;
— научишься строить масштабируемые архитектуры;
— создашь собственную игру «Звёздные войны».

👨‍💻 Примеры кода на C#, Java, Python, PHP, C++ и JavaScript. Главное — понимать принципы, а не язык.

Преподаватель — Евгений Тюменцев, директор компании HWdTech, разрабатывал многопоточные кроссплатформенные приложения для IBM Watson.

📆 Формат: онлайн, 1 месяц.
📚 9 лекций + 2 бонусных занятия + практика.

Интенсив подойдёт джунам, которые хотят апнуться до мидла, и мидлам, мечтающим о роли архитектора.

👉 Переходи к курсам со скидкой 40%
This media is not supported in your browser
VIEW IN TELEGRAM
🧭 Встречайте новый браузер от OpenAI — ChatGPT Atlas

OpenAI официально выходит на арену браузеров с ChatGPT Atlas — браузером, в котором искусственный интеллект встроен прямо в процесс серфинга по сети.

Atlas создан на движке Chromium и включает всё привычное: вкладки, закладки, автозаполнение паролей, инкогнито-режим.
Но его ключевая особенность — режим агента, который позволяет ChatGPT выполнять действия прямо внутри браузера.

Например:
— можно выделить текст в почте и попросить ChatGPT улучшить письмо;
— нажать кнопку “Ask ChatGPT” в углу, чтобы получить анализ кода, резюме статьи или краткий пересказ рецензии на фильм — прямо на текущей странице.

🔍 В адресной строке теперь можно искать не через Google, а напрямую через ChatGPT: результаты структурированы по категориям — текст, изображения, видео, новости.

Если включить память браузера, ChatGPT сможет помнить просмотренные страницы, чтобы давать более точные ответы и полезные подсказки.
Например, создать список дел из последних действий или продолжить подбор подарков, которые вы недавно искали.

📱 Браузер пока выходит только на macOS, но Windows-версия ожидается в скором времени.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🥰4👍2🎉1
💻 Что под капотом у дата-сайентиста?

Говорят, ноутбук дата-сайентиста живёт в двух состояниях:
— «всё летает»
— «свопнулся насмерть при fit()»

Давайте проверим, кто на чём считает градиенты.
Расскажите в комментариях:
👉 модель ноутбука
👉 чип / GPU
👉 сколько ОЗУ спасает вас от крашей при обучении модели

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁2😢2
📉 Распределение Коши — самое «упрямое» в статистике

У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.

😅 Да-да, никакого среднего значения у него нет — математика просто отказывается сходиться.

Почему это интересно:
— В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
— В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.

🔛 Распределение Коши — напоминание, что не всё поддаётся усреднению. Иногда хаос — это и есть закон.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥2🥰1😢1
🍊 Orange Data Mining — визуальная аналитика без кода

Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).

Что можно делать:
— Загружать и исследовать данные
— Визуализировать зависимости
— Применять машинное обучение
— Строить интерактивные отчёты

🧩 Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.

Установка (несколько способов)

Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3


Через pip:
pip install orange3


После установки:
orange-canvas


или
python3 -m Orange.canvas


📱 GitHub

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥2🥰1
💥 Октябрь — месяц апгрейда!

До конца этого месяца действует скидка 40% на все курсы Proglib Academy (кроме AI-агентов, ML для старта и математики).

Под акцию попал и наш хит — курс «Алгоритмы и структуры данных».

👨‍💻 Он подойдёт джунам, мидлам и всем, кто хочет писать код осознанно, а не наугад.

👨‍🏫 Преподаватели — инженеры из Яндекса и ВШЭ.

🎓 Сертификат по итогам обучения — в портфолио.

47 видеоуроков и 150 практических задач;
поддержка преподавателей и чат;
доступ к материалам на 12 месяцев.

Полная программа курса тут 👈

👉 Остальные курсы
⬇️ Почему MissForest ломается в задачах предсказания

Алгоритм MissForest отлично восстанавливает пропущенные данные, но в предиктивных моделях он даёт сбой — и дело не в коде, а в логике.

⚠️ Проблема: MissForest не сохраняет обученные модели после импутации. Из-за этого тестовые данные влияют на обучение, что приводит к утечке данных (data leakage) и искажённым метрикам.

Две типичные ошибки:
1️⃣ Объединять train и test перед импутацией — утечка данных
2️⃣ Импутировать отдельно — падает точность

Решение — MissForestPredict:
➡️ Он сохраняет обученные модели для каждой переменной
➡️ Можно обучить на train и честно применить к test — без утечки и переобучения.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3