Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.5K subscribers

2.36K photos

119 videos

64 files

4.8K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.5K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💾 Память под контролем: RamTorch для обучения больших моделей

PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.

RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.

▶️ Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.

Ключевые возможности:
🟡 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🟡 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🟡 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🟡 Drop-in замена: совместимо с существующим кодом PyTorch

Установка:

pip install ramtorch

Простой пример:

import torch
from ramtorch import Linear

# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)

# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")

# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x)  # Parameters automatically transferred from CPU to GPU

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

1.57K viewsedited 18:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📊 Интерактивная визуализация PCA: шаг за шагом

Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.

Что можно делать:
✔️ Добавлять новые точки
✔️ Перетаскивать их и наблюдать, как они проходят через весь пайплайн PCA

Этапы:
✔️ Стандартизация
✔️ Поворот в пространство главных компонент
✔️ Удаление второй компоненты
✔️ Обратная проекция
✔️ Обратная стандартизация

📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!

🔗 Дашборд: https://clc.to/3kXBMQ

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3

1.5K views11:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Лучшие нейросети для работы с текстом в 2025 году

1⃣

Повышение уникальности текста
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty

2⃣

Написание ВКР
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj

3⃣

Создание текстов в целом
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F

4⃣

Написание докладов и рефератов
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG

5⃣

Написание сочинений и эссе
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

1.58K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📌 Регрессионная импутация пропусков: детерминированная vs стохастическая

Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:

Детерминированная регрессионная импутация:
✅ Пропуски заменяются предсказанными значениями регрессионной модели.
✅ Такой метод прост и воспроизводим, но у него есть минус — все значения лежат строго на линии регрессии.
✅ Это снижает естественную изменчивость данных, занижает стандартные ошибки и может искажать статистические выводы.

Стохастическая регрессионная импутация:
✅ К предсказанным значениям добавляется случайный шум (остатки модели).
✅ Это сохраняет естественную дисперсию и делает восстановленные значения более реалистичными.
✅ Метод чуть сложнее в реализации, но лучше отражает реальное распределение признака.

Визуализация:
📊 Слева: детерминированный метод — все красные точки на линии регрессии → нет вариации.
📊 Справа: стохастический метод — красные точки с шумом ближе к реальному разбросу чёрных наблюдений.

Что выбрать?

Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.57K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📘 Полный гайд по машинному обучению — учебник на 649 страниц

Свежий PDF-учебник Introduction to Machine Learning охватывает:
✔️ Основы и теоретические принципы
✔️ Классические алгоритмы и современные методы
✔️ Техники и практики для реальных задач

Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.

🔗

Скачать знания

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

1.9K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍2

1.9K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚠️ Ошибки при использовании p-value в научных исследованиях

Неправильное применение p-value — распространённая проблема в науке. Часто значения p-value неправильно интерпретируют, что ведёт к неверным выводам.

Напомним: p-value показывает вероятность получить результаты хотя бы такими же экстремальными, как наблюдаемые, при условии, что нулевая гипотеза верна.

Основные ошибки:
📟 Чрезмерное внимание к значимости – исследователи фокусируются только на том, меньше ли p-value порога (например, 0.05), игнорируя размер эффекта и практическую значимость.
📟 P-hacking – манипуляции с данными или условиями эксперимента, чтобы получить «статистически значимые» результаты.
📟 Неправильная интерпретация – низкое p-value не доказывает альтернативную гипотезу, а высокое p-value не подтверждает нулевую.
📟 Игнорирование контекста – не учитываются предыдущие исследования, дизайн эксперимента и общая логика исследования.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤5👍5

2.01K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой проект сделал открытые данные о изображениях популярными для соревнований по ML?

Anonymous Quiz

❤1

329 voters1.65K views07:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁7

1.68K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал

Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.

Но всё самое интересное только начинается!

🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.

💸 Сейчас действует специальная цена → 69.000 ₽ вместо ~~79.000 ₽~~.

⏳ Осталось всего 4 места.

Не упустите шанс прокачаться в том, что будет определять будущее индустрии.

👉 Забронировать место на курсе

1.68K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 Новые методы и исследования в AI
— Modular Manifolds — новый метод обучения нейросетей, ограничивающий веса на manifolds, делает обучение стабильнее и предсказуемее.
— We reverse-engineered Flash Attention 4 — разбор нового CUDA-ядра Flash Attention 4, ускоряющего трансформеры.
— LoRA Without Regret — LoRA в задачах Reinforcement Learning может соперничать с полноценным финетюнингом, если применять большие learning rate и использовать LoRA на всех слоях.
— Pre-training under infinite compute —новое исследование показывает, как регуляризация и ансамбли моделей могут компенсировать нехватку уникальных данных при масштабировании compute.
— Google DeepMind Dreamer 4 — Dreamer 4 обучается полностью внутри собственного world model, превосходит OpenAI VPT при 100× меньших данных и обходит Gemma-3 по эффективности.

⚙️ Практика и алгоритмы
— Борьба с дисбалансом классов: стандартные методы — обзор базовых техник балансировки данных: oversampling, undersampling, SMOTE и их вариации.
— Рекомендательные системы в современном мире — подходы, метрики и современные тренды в рекомендациях — от коллаборативной фильтрации до моделей на графах и нейросетях.
— Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов — необычный подход к обучению без backpropagation — обучение скрытых слоёв через прямые зависимости сигналов, что потенциально снижает вычислительные затраты.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

1.8K views13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

1.77K views07:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

388 voters1.65K views07:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🕒 Как создать Q&A датасет за 30 минут

Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:

Мне 25 лет, я разработчик с стабильным доходом. Хочу начать инвестировать в акции для долгосрочного роста. С чего начать?

Модель отвечает полезным советом:

Начните с диверсифицированного портфеля акций в разных секторах. Сосредоточьтесь на технологических компаниях, но также рассмотрите здравоохранение, энергетику и потребительские товары. Инвестируйте в индексные фонды для снижения рисков. Можно также подумать о криптовалютах для дополнительной диверсификации.

Чтобы модель давала такие советы, нужно:
1️⃣ Взять open-source LLM (например, Llama 2, Falcon 7B).
2️⃣ Дообучить её на задаче финансового консультирования.

Но для этого нужен датасет пар (вход → ответ):
✅ Вход — текст пользователя с описанием целей и актуальными новостями.
✅ Выход — корректный финансовый совет на основе данных пользователя и новостей.

🚩

Подробная статья по созданию такого датасета

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.78K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🟩 Типы матриц — шпаргалка

Зная тип матрицы, проще выбирать методы решения линейных уравнений.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🥰3👍1

1.84K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных

За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.

Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:

1️⃣

Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.

2️⃣

Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.

3️⃣

Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с cuDF всё работает в десятки раз быстрее.

4️⃣

Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.

5️⃣

Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.

7️⃣

Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.

🚩

Подробнее в детальной статье

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍3❤2

1.94K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy

Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.

Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.

⚡️ Пока скидка действует, апдейтни свои навыки

1.6K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

другие варианты? 😆

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6👍1

1.64K viewsedited 19:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 LLMs с нуля: от базовой модели до RLHF на практике

Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).

Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.

Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO

📱

Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2👍1

1.85K views08:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏫

Быстрый способ увидеть все зависимости Python-пакета

Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.

Полезно для дата-сайентистов:
😗 Офлайн-установки — особенно на изолированных серверах
😗 Экономия времени — мгновенный список всех зависимостей и их подзависимостей
😗 Аудит пакетов — быстро понять, что реально подтягивает пакет

Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤2

4.69K viewsedited 17:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🐙 OctoSQL — единый SQL для всех источников данных

Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.

💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.

📱

Репозиторий: https://clc.to/fR5Lsw

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.68K views09:32