Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🗺 Geographic Data Science с Python

Географическая дата-сайенс объединяет пространственный анализ, статистику и визуализацию для поиска скрытых закономерностей в данных.

Python стал стандартом в этой области благодаря мощным библиотекам:
➡️ GeoPandas — работа с shapefiles, GeoJSON, пространственные операции (оверлеи, буферизация, расстояния),
➡️ Matplotlib & Seaborn — от базовых графиков до наглядных теплокарт и сложных визуализаций,
➡️ scikit-learn — машинное обучение для геоданных: кластеризация, классификация, прогнозирование.

Применения:
🚩 анализ экологии и поиск «горячих точек» загрязнений,
🚩 исследование демографии и выявление неравенства,
🚩 городское планирование и смарт-инфраструктура.

➡️ Отличная книга, кому интересно направление

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95
🤫 Курс «ИИ-агенты для DS-специалистов»

Каждый технологический скачок оставляет позади тех, кто «подождал ещё чуть-чуть». ИИ-агенты — это новый рывок.

Уже через пару лет именно они будут драйвить аналитику и автоматизацию. Хотите остаться на гребне?

🖥️ На курсе «ИИ-агенты для DS-специалистов» мы разберём:

— создание AI-агентов с нуля
— сборку собственной RAG-системы
— интеграцию LLM под задачи бизнеса

📌 Курс подходит:

→ ML/AI инженерам (middle+ / senior)
→ Data Scientists
→ Backend и platform-инженерам
→ Advanced CS/DS студентам

⚡️ Старт уже скоро — 3 октября.

💰 До 28 сентября действует скидка — 57.000 ₽ вместо 69.000 ₽ (по промокоду datarascals).

🔗 Узнать больше о курсе и записаться

З.ы. если вы не успели на вебинар «ИИ-агенты: новая фаза развития искусственного интеллекта» — запись уже доступна
2
🚀 Полезная статья для тех, кто строит карьеру в ML

В материале рассказывается, как выстраивать карьеру шаг за шагом: развитие навыков, построение сети контактов, подготовка к процессу найма и долгосрочное планирование.

Что полезного:

🔤 Тактика и стратегия карьерного роста
🔤 Определение цели и план действий
🔤 Сети контактов и рефералы
🔤 Подготовка CV и интервью (программирование, системный дизайн, культура команды)
🔤 Домашние задания и онлайн-тесты
🔤 Психологические нюансы процесса найма

💓 Отличный ресурс для всех, кто хочет понять, как системно подходить к развитию карьеры в ML и LLM.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
😁21👍1
🚀 Всё о курсе «ИИ-агенты для DS-специалистов»

Зачем нужны ИИ-агенты?

Это системы, которые берут на себя задачи аналитики и автоматизации. Именно они становятся основой для работы с корпоративными данными и для поддержки принятия решений.

Зачем мне курс?

Курс отвечает на три ключевых вопроса:

— Как построить собственную систему агентов с нуля?
— Каким образом использовать RAG-подход для работы с корпоративными данными?
— Как адаптировать LLM под реальные задачи бизнеса?

Подходит ли это мне?

Курс рассчитан на специалистов уровня middle+ и senior: ML/AI инженеров, Data Scientists, backend и platform-разработчиков. Подойдёт и студентам CS/DS, если вы готовы к продвинутым практикам.

Запись вводной встречи «ИИ-агенты: новая фаза развития искусственного интеллекта» доступна по ссылке.

Когда старт?

Обучение начинается 3 октября.

Сколько стоит?

До 28 сентября действует скидка → 57 000 ₽ вместо 69 000 ₽ (промокод datarascals).

🔗 Описание программы и регистрация
1
🔥 Сегодня последний день скидки!

На недавнем вебинаре «ИИ-агенты: новая фаза развития AI» мы показали, как агенты уже меняют работу Data Scientists и инженеров.

Что тебя ждёт на курсе:

⚡️ создашь своего ИИ-агента с нуля
⚡️ соберёшь RAG-систему
⚡️ научишься адаптировать LLM под реальные данные бизнеса

До конца этого дня цена на курс 57 000 ₽. Уже завтра будет 69 000 ₽. Успевай записаться (используй промокод datarascals).

🔗 Записаться на курс
👍1
🆕 Свежие новости для дата‑сайентистов

🔹 AI и мульти-модальные модели
Qwen3-Omni — первый нативный end-to-end омни-модальный AI, объединяющий текст, изображения, аудио и видео без компромиссов между модальностями.
Google Gemini 2.5 Flash и Flash-Lite — обновлённые модели DeepMind для Vertex AI и Google AI Studio с улучшенной скоростью и качеством. Flash-Lite экономит до 50% токенов при инференсе.
Нативная аудио-модель Google — новая модель в Gemini Live API делает голосовых агентов более надёжными и способными корректно работать с пользователем.

🔹 Исследования и новые методы
RLPT: Reinforcement Learning on Pretraining Data — новый подход, где LLM обучаются с использованием RL напрямую на данных претрейнинга, без ручной аннотации наград.
GPT-oss и утечки данных — анализ весов GPT-oss показал возможное использование контента с adult-сайтов и частично данных с GitHub в обучении моделей семейства GPT-5.

🔹 Практика и инструменты ML
Как работать с нейросетями эффективно — теоретические и практические рекомендации.
Ускорение инференса ML-моделей — советы по оптимизации без лишних затрат.
In-context learning без тренировки — статья про имплицитную динамику обучения в контексте.
Алгоритм Isolation Forest — метод поиска аномалий в данных.
Опрос для data-специалистов — про стек, зарплаты и трудности работы.
Лучшие ML-фреймворки 2025 года — обзор актуальных инструментов для разработки моделей.
Финетюнинг без греха — как безопасно кастомизировать AI и не сломать его.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
Последние часы со скидкой!

Мы уже закрыли вебинар «ИИ-агенты: новая фаза развития AI», но запись всё ещё доступна.

А дальше остаётся только практика. На курсе «ИИ-агенты для DS-специалистов» ты научишься разрабатывать агентов, собирать RAG-системы и адаптировать LLM под бизнес.

Сегодня цена ещё 57.000 ₽ с промокодом datarascals.
Завтра — 69.000 ₽.

👉 Успеть оплатить до полуночи
🧩 Тонкости гиперпараметрического тюнинга

Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?

В свежем видео показывают:
➡️ как использовать Optuna для автоматического тюнинга XGBoost,
➡️ почему кросс-валидация критична для реальных задач,
➡️ какие приёмы тюнинга реально работают,
➡️ и как визуализации Optuna помогают выявлять самые важные гиперпараметры.

Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.

🔗 Ссылка на туториал

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
🤖 Курс «ИИ-агенты для DS-специалистов»

Последняя возможность в этом году освоить ИИ-агентов — курс стартует уже 3 октября! Первый вебинар пройдёт в день старта, а подробности вебинара можно найти на сайте.

📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.

🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.

🔗 Записаться на курс и узнать подробности
👍1
🤖 Курс «ИИ-агенты для DS-специалистов»

Последняя возможность в этом году освоить ИИ-агентов с Proglib— старт живых вебинаров на курсе уже 3 октября!

Уже 24 студента изучают 5 лонгридов подготовительного модуля, чтобы сформировать базу к старту живых вебинаров с Никитой Зелинским.

📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.

🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.

🔗 Записаться на курс и узнать подробности
💾 Память под контролем: RamTorch для обучения больших моделей

PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.

RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.

▶️ Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.

Ключевые возможности
:
🟡 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🟡 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🟡 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🟡 Drop-in замена: совместимо с существующим кодом PyTorch

Установка:
pip install ramtorch


Простой пример:
import torch
from ramtorch import Linear

# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)

# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")

# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x) # Parameters automatically transferred from CPU to GPU


📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Интерактивная визуализация PCA: шаг за шагом

Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.

Что можно делать:
✔️ Добавлять новые точки
✔️ Перетаскивать их и наблюдать, как они проходят через весь пайплайн PCA

Этапы:
✔️ Стандартизация
✔️ Поворот в пространство главных компонент
✔️ Удаление второй компоненты
✔️ Обратная проекция
✔️ Обратная стандартизация

📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!

🔗 Дашборд: https://clc.to/3kXBMQ

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
🤖 Лучшие нейросети для работы с текстом в 2025 году

1⃣ Повышение уникальности текста
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty

2⃣ Написание ВКР
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj

3⃣ Создание текстов в целом
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F

4⃣ Написание докладов и рефератов
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG

5⃣ Написание сочинений и эссе
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
📌 Регрессионная импутация пропусков: детерминированная vs стохастическая

Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:

Детерминированная регрессионная импутация:
Пропуски заменяются предсказанными значениями регрессионной модели.
Такой метод прост и воспроизводим, но у него есть минус — все значения лежат строго на линии регрессии.
Это снижает естественную изменчивость данных, занижает стандартные ошибки и может искажать статистические выводы.

Стохастическая регрессионная импутация:
К предсказанным значениям добавляется случайный шум (остатки модели).
Это сохраняет естественную дисперсию и делает восстановленные значения более реалистичными.
Метод чуть сложнее в реализации, но лучше отражает реальное распределение признака.

Визуализация:
📊 Слева: детерминированный метод — все красные точки на линии регрессии → нет вариации.
📊 Справа: стохастический метод — красные точки с шумом ближе к реальному разбросу чёрных наблюдений.

Что выбрать?

Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
📘 Полный гайд по машинному обучению — учебник на 649 страниц

Свежий PDF-учебник Introduction to Machine Learning охватывает:
✔️ Основы и теоретические принципы
✔️ Классические алгоритмы и современные методы
✔️ Техники и практики для реальных задач

Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.

🔗 Скачать знания

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2