Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.8K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
💾 Память под контролем: RamTorch для обучения больших моделей

PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.

RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.

▶️ Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.

Ключевые возможности
:
🟡 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🟡 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🟡 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🟡 Drop-in замена: совместимо с существующим кодом PyTorch

Установка:
pip install ramtorch


Простой пример:
import torch
from ramtorch import Linear

# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)

# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")

# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x) # Parameters automatically transferred from CPU to GPU


📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Интерактивная визуализация PCA: шаг за шагом

Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.

Что можно делать:
✔️ Добавлять новые точки
✔️ Перетаскивать их и наблюдать, как они проходят через весь пайплайн PCA

Этапы:
✔️ Стандартизация
✔️ Поворот в пространство главных компонент
✔️ Удаление второй компоненты
✔️ Обратная проекция
✔️ Обратная стандартизация

📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!

🔗 Дашборд: https://clc.to/3kXBMQ

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
🤖 Лучшие нейросети для работы с текстом в 2025 году

1⃣ Повышение уникальности текста
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty

2⃣ Написание ВКР
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj

3⃣ Создание текстов в целом
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F

4⃣ Написание докладов и рефератов
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG

5⃣ Написание сочинений и эссе
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
📌 Регрессионная импутация пропусков: детерминированная vs стохастическая

Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:

Детерминированная регрессионная импутация:
Пропуски заменяются предсказанными значениями регрессионной модели.
Такой метод прост и воспроизводим, но у него есть минус — все значения лежат строго на линии регрессии.
Это снижает естественную изменчивость данных, занижает стандартные ошибки и может искажать статистические выводы.

Стохастическая регрессионная импутация:
К предсказанным значениям добавляется случайный шум (остатки модели).
Это сохраняет естественную дисперсию и делает восстановленные значения более реалистичными.
Метод чуть сложнее в реализации, но лучше отражает реальное распределение признака.

Визуализация:
📊 Слева: детерминированный метод — все красные точки на линии регрессии → нет вариации.
📊 Справа: стохастический метод — красные точки с шумом ближе к реальному разбросу чёрных наблюдений.

Что выбрать?

Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
📘 Полный гайд по машинному обучению — учебник на 649 страниц

Свежий PDF-учебник Introduction to Machine Learning охватывает:
✔️ Основы и теоретические принципы
✔️ Классические алгоритмы и современные методы
✔️ Техники и практики для реальных задач

Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.

🔗 Скачать знания

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2
⚠️ Ошибки при использовании p-value в научных исследованиях

Неправильное применение p-value — распространённая проблема в науке. Часто значения p-value неправильно интерпретируют, что ведёт к неверным выводам.

Напомним: p-value показывает вероятность получить результаты хотя бы такими же экстремальными, как наблюдаемые, при условии, что нулевая гипотеза верна.

Основные ошибки:
📟 Чрезмерное внимание к значимости – исследователи фокусируются только на том, меньше ли p-value порога (например, 0.05), игнорируя размер эффекта и практическую значимость.
📟 P-hacking – манипуляции с данными или условиями эксперимента, чтобы получить «статистически значимые» результаты.
📟 Неправильная интерпретация – низкое p-value не доказывает альтернативную гипотезу, а высокое p-value не подтверждает нулевую.
📟 Игнорирование контекста – не учитываются предыдущие исследования, дизайн эксперимента и общая логика исследования.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍5
Какой проект сделал открытые данные о изображениях популярными для соревнований по ML?
Anonymous Quiz
73%
MNIST
15%
Kaggle Titanic
4%
UCI Repository
7%
OpenML
1
🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал

Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.

Но всё самое интересное только начинается!

🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.

💸 Сейчас действует специальная цена → 69.000 ₽ вместо 79.000 ₽.

Осталось всего 4 места.

Не упустите шанс прокачаться в том, что будет определять будущее индустрии.

👉 Забронировать место на курсе
🆕 Свежие новости для дата‑сайентистов

🧠 Новые методы и исследования в AI
Modular Manifolds — новый метод обучения нейросетей, ограничивающий веса на manifolds, делает обучение стабильнее и предсказуемее.
We reverse-engineered Flash Attention 4 — разбор нового CUDA-ядра Flash Attention 4, ускоряющего трансформеры.
LoRA Without Regret — LoRA в задачах Reinforcement Learning может соперничать с полноценным финетюнингом, если применять большие learning rate и использовать LoRA на всех слоях.
Pre-training under infinite compute —новое исследование показывает, как регуляризация и ансамбли моделей могут компенсировать нехватку уникальных данных при масштабировании compute.
Google DeepMind Dreamer 4 — Dreamer 4 обучается полностью внутри собственного world model, превосходит OpenAI VPT при 100× меньших данных и обходит Gemma-3 по эффективности.

⚙️ Практика и алгоритмы
Борьба с дисбалансом классов: стандартные методы — обзор базовых техник балансировки данных: oversampling, undersampling, SMOTE и их вариации.
Рекомендательные системы в современном мире — подходы, метрики и современные тренды в рекомендациях — от коллаборативной фильтрации до моделей на графах и нейросетях.
Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов — необычный подход к обучению без backpropagation — обучение скрытых слоёв через прямые зависимости сигналов, что потенциально снижает вычислительные затраты.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
This media is not supported in your browser
VIEW IN TELEGRAM
🕒 Как создать Q&A датасет за 30 минут

Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Мне 25 лет, я разработчик с стабильным доходом. Хочу начать инвестировать в акции для долгосрочного роста. С чего начать?


Модель отвечает полезным советом:
Начните с диверсифицированного портфеля акций в разных секторах. Сосредоточьтесь на технологических компаниях, но также рассмотрите здравоохранение, энергетику и потребительские товары. Инвестируйте в индексные фонды для снижения рисков. Можно также подумать о криптовалютах для дополнительной диверсификации.


Чтобы модель давала такие советы, нужно:
1️⃣ Взять open-source LLM (например, Llama 2, Falcon 7B).
2️⃣ Дообучить её на задаче финансового консультирования.

Но для этого нужен датасет пар (вход → ответ):
Вход — текст пользователя с описанием целей и актуальными новостями.
Выход — корректный финансовый совет на основе данных пользователя и новостей.

🚩 Подробная статья по созданию такого датасета

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🟩 Типы матриц — шпаргалка

Зная тип матрицы, проще выбирать методы решения линейных уравнений.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5🥰3👍1
🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных

За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.

Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:

1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.

2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.

3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с cuDF всё работает в десятки раз быстрее.

4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.

5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.

7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.

🚩 Подробнее в детальной статье

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32
💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy

Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.

Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.


⚡️ Пока скидка действует, апдейтни свои навыки
🔥 LLMs с нуля: от базовой модели до RLHF на практике

Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).

Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.

Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO

📱 Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍1
Быстрый способ увидеть все зависимости Python-пакета

Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.

Полезно для дата-сайентистов:
😗 Офлайн-установки — особенно на изолированных серверах
😗 Экономия времени — мгновенный список всех зависимостей и их подзависимостей
😗 Аудит пакетов — быстро понять, что реально подтягивает пакет

Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных

Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.

💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.

📱 Репозиторий: https://clc.to/fR5Lsw

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3