Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему фреймворк Apache Hadoop получил такое название?

Anonymous Quiz

13%

В честь индийского бога знаний

46%

В честь игрушечного слонёнка сына создателя

38%

Аббревиатура от High-Performance Data Operations

Случайный набор букв

😁1

335 voters1.54K views09:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

♾️ 17 формул, которые изменили мир

Математика в действии — как уравнения, придуманные века назад, сегодня управляют интернетом, медициной, космосом и вашими финансами.

📎 Читать статью

А если после статьи захотите разобраться, как эта математика работает в Data Science — вот экспресс-курс, который всё расставит по полочкам:

«Математика для Data Science»

— практика и живые уроки
— разбор кода и проверка домашних
— поддержка в Telegram-чате

🎓 За 2 месяца поймёте, как работают алгоритмы ML под капотом.
🗓️ Старт — 6 ноября

👉 Записаться на курс

1.37K views16:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🖥

Модели и инфраструктура
— Andrej Karpathy запускает nanochat — новый лёгкий фреймворк для сборки маленьких ChatGPT-подобных моделей.
— Внутри vLLM — подробный разбор архитектуры и оптимизаций движка vLLM.

📘 Обучение и теория
— The Ultimate Guide to Fine-Tuning LLMs — бесплатная 115-страничная книга, охватывающая всю теорию Fine-Tuning моделей.
— Stanford: разнообразие без переобучения — исследователи из Стэнфорда представили Verbalized Sampling — метод промптинга, который восстанавливает вариативность базовых моделей и повышает качество без дообучения.

🧩 Практика и примеры
— Как построить RAG-систему за вечер — практическое руководство по сборке Retrieval-Augmented Generation.
— Как оценить качество машинного перевода — метрики BLEU, METEOR, TER и современные ML-подходы к оценке качества перевода.

📊 Исследования и размышления
— Почему линейная регрессия всё ещё обыгрывает трансформеры — разбор причин, по которым классические методы остаются лучшими для временных рядов.
— Andrej Karpathy: AGI ещё не скоро — всвежем интервью Карпати рассуждает о будущем AGI, провале RL.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🎉2❤1

1.18K views14:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏰ Сегодня последний день!

🎁 Только при оплате до 19 октября — курс «Базовая математика» в подарок!

Успей попасть на экспресс-курс «Математика для Data Science» — 10 живых вебинаров, практика на Python, поддержка менторов и преподаватели из ВШЭ, Яндекс Практикума и Wildberries.

За 2 месяца разберёшься с тем, на чём держится Data Science:

• векторы, матрицы и регрессия;
• градиенты, оптимизация, вероятности и статистика;
• реальные задачи анализа данных;

🎓 Построишь математический фундамент и поймёшь, как работают алгоритмы ML под капотом.

👉 Записаться на курс

Старт — 6 ноября, не упусти бонус!🎁

1.29K views15:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.27K views08:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

👍1

432 voters1.33K views08:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤯 Наконец-то понятен self-attention

Одна из самых сложных частей понимания LLM — это self-attention. Формула выглядит простой — её можно быстро выучить.

Но что на самом деле означают Q, K и V и как они взаимодействуют — совсем другая история.

✅ Эта визуализация делает всё очень наглядным и понятным — видно, как queries обращаются к keys и получают нужные values.

🤨 Чтобы лучше понимать, как работают модели на математическом уровне, советуем курс Математика для Data Science.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2🔥2

1.31K views18:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14👍1

1.17K views09:45

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Когда понимаешь SOLID — жизнь становится проще

В октябре действует скидка 40% на все курсы от Proglib Academy, включая интенсив «Архитектуры и шаблоны проектирования»

📘 На интенсиве ты:

— разберёшься, как проектировать приложения, которые не ломаются при каждом изменении;
— освоишь SOLID-принципы, IoC, адаптеры и фабрики;
— научишься строить масштабируемые архитектуры;
— создашь собственную игру «Звёздные войны».

👨‍💻 Примеры кода на C#, Java, Python, PHP, C++ и JavaScript. Главное — понимать принципы, а не язык.

Преподаватель — Евгений Тюменцев, директор компании HWdTech, разрабатывал многопоточные кроссплатформенные приложения для IBM Watson.

📆 Формат: онлайн, 1 месяц.
📚 9 лекций + 2 бонусных занятия + практика.

Интенсив подойдёт джунам, которые хотят апнуться до мидла, и мидлам, мечтающим о роли архитектора.

👉 Переходи к курсам со скидкой 40%

1.14K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:37

This media is not supported in your browser

VIEW IN TELEGRAM

🧭 Встречайте новый браузер от OpenAI — ChatGPT Atlas

OpenAI официально выходит на арену браузеров с ChatGPT Atlas — браузером, в котором искусственный интеллект встроен прямо в процесс серфинга по сети.

Atlas создан на движке Chromium и включает всё привычное: вкладки, закладки, автозаполнение паролей, инкогнито-режим.
Но его ключевая особенность — режим агента, который позволяет ChatGPT выполнять действия прямо внутри браузера.

Например:
— можно выделить текст в почте и попросить ChatGPT улучшить письмо;
— нажать кнопку “Ask ChatGPT” в углу, чтобы получить анализ кода, резюме статьи или краткий пересказ рецензии на фильм — прямо на текущей странице.

🔍 В адресной строке теперь можно искать не через Google, а напрямую через ChatGPT: результаты структурированы по категориям — текст, изображения, видео, новости.

Если включить память браузера, ChatGPT сможет помнить просмотренные страницы, чтобы давать более точные ответы и полезные подсказки.
Например, создать список дел из последних действий или продолжить подбор подарков, которые вы недавно искали.

📱

Браузер пока выходит только на macOS, но Windows-версия ожидается в скором времени.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4🥰4👍2🎉1

1.22K views18:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻 Что под капотом у дата-сайентиста?

Говорят, ноутбук дата-сайентиста живёт в двух состояниях:
— «всё летает»
— «свопнулся насмерть при fit()»

Давайте проверим, кто на чём считает градиенты.
Расскажите в комментариях:
👉 модель ноутбука
👉 чип / GPU
👉 сколько ОЗУ спасает вас от крашей при обучении модели

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2😁2😢2

1.24K views09:25

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📉 Распределение Коши — самое «упрямое» в статистике

У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.

😅 Да-да, никакого среднего значения у него нет — математика просто отказывается сходиться.

Почему это интересно:
— В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
— В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.

🔛 Распределение Коши — напоминание, что не всё поддаётся усреднению. Иногда хаос — это и есть закон.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3🔥2🥰1😢1

1.16K views19:26

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🍊 Orange Data Mining — визуальная аналитика без кода

Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).

Что можно делать:
— Загружать и исследовать данные
— Визуализировать зависимости
— Применять машинное обучение
— Строить интерактивные отчёты

🧩 Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.

Установка (несколько способов)

Через Conda (рекомендуется):

conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3

Через pip:

pip install orange3

После установки:

orange-canvas

или

python3 -m Orange.canvas

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥2🥰1

747 views09:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💥 Октябрь — месяц апгрейда!

До конца этого месяца действует скидка 40% на все курсы Proglib Academy (кроме AI-агентов, ML для старта и математики).

Под акцию попал и наш хит — курс «Алгоритмы и структуры данных».

👨‍💻 Он подойдёт джунам, мидлам и всем, кто хочет писать код осознанно, а не наугад.

👨‍🏫 Преподаватели — инженеры из Яндекса и ВШЭ.

🎓 Сертификат по итогам обучения — в портфолио.

➖ 47 видеоуроков и 150 практических задач;
➖ поддержка преподавателей и чат;
➖ доступ к материалам на 12 месяцев.

Полная программа курса тут 👈

👉 Остальные курсы

547 views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⬇️ Почему MissForest ломается в задачах предсказания

Алгоритм MissForest отлично восстанавливает пропущенные данные, но в предиктивных моделях он даёт сбой — и дело не в коде, а в логике.

⚠️ Проблема: MissForest не сохраняет обученные модели после импутации. Из-за этого тестовые данные влияют на обучение, что приводит к утечке данных (data leakage) и искажённым метрикам.

Две типичные ошибки:
1️⃣ Объединять train и test перед импутацией — утечка данных
2️⃣ Импутировать отдельно — падает точность

Решение — MissForestPredict:
➡️ Он сохраняет обученные модели для каждой переменной
➡️ Можно обучить на train и честно применить к test — без утечки и переобучения.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

324 views18:15

About

Blog

Apps

Platform