💾 Память под контролем: RamTorch для обучения больших моделей
PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.
RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.
▶️ Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.
Ключевые возможности:
🟡 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🟡 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🟡 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🟡 Drop-in замена: совместимо с существующим кодом PyTorch
Установка:
Простой пример:
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.
RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.
Ключевые возможности:
Установка:
pip install ramtorch
Простой пример:
import torch
from ramtorch import Linear
# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)
# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")
# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x) # Parameters automatically transferred from CPU to GPU
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Интерактивная визуализация PCA: шаг за шагом
Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.
Что можно делать:
✔️ Добавлять новые точки
✔️ Перетаскивать их и наблюдать, как они проходят через весь пайплайн PCA
Этапы:
✔️ Стандартизация
✔️ Поворот в пространство главных компонент
✔️ Удаление второй компоненты
✔️ Обратная проекция
✔️ Обратная стандартизация
📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!
🔗 Дашборд: https://clc.to/3kXBMQ
🐸 Библиотека дата-сайентиста
#буст
Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.
Что можно делать:
Этапы:
📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!
🔗 Дашборд: https://clc.to/3kXBMQ
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3
🤖 Лучшие нейросети для работы с текстом в 2025 году
1⃣ Повышение уникальности текста
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty
2⃣ Написание ВКР
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj
3⃣ Создание текстов в целом
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F
4⃣ Написание докладов и рефератов
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG
5⃣ Написание сочинений и эссе
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI
🐸 Библиотека дата-сайентиста
#буст
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
📌 Регрессионная импутация пропусков: детерминированная vs стохастическая
Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:
Детерминированная регрессионная импутация:
✅ Пропуски заменяются предсказанными значениями регрессионной модели.
✅ Такой метод прост и воспроизводим, но у него есть минус — все значения лежат строго на линии регрессии.
✅ Это снижает естественную изменчивость данных, занижает стандартные ошибки и может искажать статистические выводы.
Стохастическая регрессионная импутация:
✅ К предсказанным значениям добавляется случайный шум (остатки модели).
✅ Это сохраняет естественную дисперсию и делает восстановленные значения более реалистичными.
✅ Метод чуть сложнее в реализации, но лучше отражает реальное распределение признака.
Визуализация:
📊 Слева: детерминированный метод — все красные точки на линии регрессии → нет вариации.
📊 Справа: стохастический метод — красные точки с шумом ближе к реальному разбросу чёрных наблюдений.
Что выбрать?
Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.
🐸 Библиотека дата-сайентиста
#буст
Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:
Детерминированная регрессионная импутация:
Стохастическая регрессионная импутация:
Визуализация:
Что выбрать?
Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
📘 Полный гайд по машинному обучению — учебник на 649 страниц
Свежий PDF-учебник Introduction to Machine Learning охватывает:
✔️ Основы и теоретические принципы
✔️ Классические алгоритмы и современные методы
✔️ Техники и практики для реальных задач
Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.
🔗 Скачать знания
🐸 Библиотека дата-сайентиста
#буст
Свежий PDF-учебник Introduction to Machine Learning охватывает:
Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели
🐸 Библиотека дата-сайентиста
#буст
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍2
⚠️ Ошибки при использовании p-value в научных исследованиях
Неправильное применение p-value — распространённая проблема в науке. Часто значения p-value неправильно интерпретируют, что ведёт к неверным выводам.
Напомним: p-value показывает вероятность получить результаты хотя бы такими же экстремальными, как наблюдаемые, при условии, что нулевая гипотеза верна.
Основные ошибки:
📟 Чрезмерное внимание к значимости – исследователи фокусируются только на том, меньше ли p-value порога (например, 0.05), игнорируя размер эффекта и практическую значимость.
📟 P-hacking – манипуляции с данными или условиями эксперимента, чтобы получить «статистически значимые» результаты.
📟 Неправильная интерпретация – низкое p-value не доказывает альтернативную гипотезу, а высокое p-value не подтверждает нулевую.
📟 Игнорирование контекста – не учитываются предыдущие исследования, дизайн эксперимента и общая логика исследования.
🐸 Библиотека дата-сайентиста
#буст
Неправильное применение p-value — распространённая проблема в науке. Часто значения p-value неправильно интерпретируют, что ведёт к неверным выводам.
Напомним: p-value показывает вероятность получить результаты хотя бы такими же экстремальными, как наблюдаемые, при условии, что нулевая гипотеза верна.
Основные ошибки:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤5👍5
Какой проект сделал открытые данные о изображениях популярными для соревнований по ML?
Anonymous Quiz
73%
MNIST
15%
Kaggle Titanic
4%
UCI Repository
7%
OpenML
❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7
🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал
Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.
Но всё самое интересное только начинается!
🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.
💸 Сейчас действует специальная цена → 69.000 ₽ вместо79.000 ₽.
⏳ Осталось всего 4 места.
Не упустите шанс прокачаться в том, что будет определять будущее индустрии.
👉 Забронировать место на курсе
Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.
Но всё самое интересное только начинается!
🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.
💸 Сейчас действует специальная цена → 69.000 ₽ вместо
⏳ Осталось всего 4 места.
Не упустите шанс прокачаться в том, что будет определять будущее индустрии.
👉 Забронировать место на курсе
🧠 Новые методы и исследования в AI
— Modular Manifolds — новый метод обучения нейросетей, ограничивающий веса на manifolds, делает обучение стабильнее и предсказуемее.
— We reverse-engineered Flash Attention 4 — разбор нового CUDA-ядра Flash Attention 4, ускоряющего трансформеры.
— LoRA Without Regret — LoRA в задачах Reinforcement Learning может соперничать с полноценным финетюнингом, если применять большие learning rate и использовать LoRA на всех слоях.
— Pre-training under infinite compute —новое исследование показывает, как регуляризация и ансамбли моделей могут компенсировать нехватку уникальных данных при масштабировании compute.
— Google DeepMind Dreamer 4 — Dreamer 4 обучается полностью внутри собственного world model, превосходит OpenAI VPT при 100× меньших данных и обходит Gemma-3 по эффективности.
⚙️ Практика и алгоритмы
— Борьба с дисбалансом классов: стандартные методы — обзор базовых техник балансировки данных: oversampling, undersampling, SMOTE и их вариации.
— Рекомендательные системы в современном мире — подходы, метрики и современные тренды в рекомендациях — от коллаборативной фильтрации до моделей на графах и нейросетях.
— Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов — необычный подход к обучению без backpropagation — обучение скрытых слоёв через прямые зависимости сигналов, что потенциально снижает вычислительные затраты.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
This media is not supported in your browser
VIEW IN TELEGRAM
🕒 Как создать Q&A датасет за 30 минут
Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Модель отвечает полезным советом:
Чтобы модель давала такие советы, нужно:
1️⃣ Взять open-source LLM (например, Llama 2, Falcon 7B).
2️⃣ Дообучить её на задаче финансового консультирования.
Но для этого нужен датасет пар (вход → ответ):
✅ Вход — текст пользователя с описанием целей и актуальными новостями.
✅ Выход — корректный финансовый совет на основе данных пользователя и новостей.
🚩 Подробная статья по созданию такого датасета
🐸 Библиотека дата-сайентиста
#буст
Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Мне 25 лет, я разработчик с стабильным доходом. Хочу начать инвестировать в акции для долгосрочного роста. С чего начать?
Модель отвечает полезным советом:
Начните с диверсифицированного портфеля акций в разных секторах. Сосредоточьтесь на технологических компаниях, но также рассмотрите здравоохранение, энергетику и потребительские товары. Инвестируйте в индексные фонды для снижения рисков. Можно также подумать о криптовалютах для дополнительной диверсификации.
Чтобы модель давала такие советы, нужно:
Но для этого нужен датасет пар (вход → ответ):
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
🟩 Типы матриц — шпаргалка
Зная тип матрицы, проще выбирать методы решения линейных уравнений.
🐸 Библиотека дата-сайентиста
#буст
Зная тип матрицы, проще выбирать методы решения линейных уравнений.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🥰3👍1
🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
🚩 Подробнее в детальной статье
🐸 Библиотека дата-сайентиста
#буст
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
cuDF
всё работает в десятки раз быстрее.Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy
Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.
⚡️ Пока скидка действует, апдейтни свои навыки
Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.
Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.
⚡️ Пока скидка действует, апдейтни свои навыки
🔥 LLMs с нуля: от базовой модели до RLHF на практике
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO
📱 Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA
🐸 Библиотека дата-сайентиста
#буст
Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).
Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.
Что внутри:
🎥 Смотреть: https://clc.to/5yvRlA
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍1
Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.
Полезно для дата-сайентистов:
Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
📱 Репозиторий: https://clc.to/fR5Lsw
🐸 Библиотека дата-сайентиста
#буст
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3