Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy

Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.

Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.

⚡️ Пока скидка действует, апдейтни свои навыки

1.61K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

другие варианты? 😆

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6👍1

1.66K viewsedited 19:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 LLMs с нуля: от базовой модели до RLHF на практике

Подробный практический гид по созданию собственной LLM в PyTorch — от архитектуры трансформеров до продвинутого обучения с подкреплением через PPO (RLHF).

Видео охватывает весь путь: проектирование, обучение, масштабирование и выравнивание модели.

Что внутри:
🔎 Построение ядра трансформера
🔎 Обучение Tiny LLM
🔎 Современные архитектурные улучшения
🔎 Масштабирование и Mixture-of-Experts
🔎 Supervised Fine-Tuning
🔎 Reward Modeling
🔎 RLHF с PPO

📱

Код: https://clc.to/tw9C4A
🎥 Смотреть: https://clc.to/5yvRlA

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2👍1

1.88K views08:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏫

Быстрый способ увидеть все зависимости Python-пакета

Инструмент PyPIPlus мгновенно показывает все зависимости любого Python-пакета с PyPI.

Полезно для дата-сайентистов:
😗 Офлайн-установки — особенно на изолированных серверах
😗 Экономия времени — мгновенный список всех зависимостей и их подзависимостей
😗 Аудит пакетов — быстро понять, что реально подтягивает пакет

Идеально для: подготовки окружений, деплоя моделей, аудита сторонних библиотек и управления зависимостями.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤2

4.76K viewsedited 17:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🐙 OctoSQL — единый SQL для всех источников данных

Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.

💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.

📱

Репозиторий: https://clc.to/fR5Lsw

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.7K views09:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🔎

KL Divergence ≠ Distance Metric

Все слышали про KL Divergence, но не все задумывались — почему дивергенция, а не расстояние?

Чтобы мера считалась distance, она должна быть:
✅ неотрицательной
✅ симметричной
✅ равной нулю, если P = Q
✅ и соблюдать неравенство треугольника

Но KL Divergence: 🚫 несимметрична — Dₖₗ(P∥Q) ≠ Dₖₗ(Q∥P), поэтому это не метрика.

💡 Тогда почему дивергенция

Потому что она показывает, насколько одно распределение отклоняется от другого, а не насколько далеко в метрическом смысле.

Или проще: KL Divergence — это мера информационной разницы, а не физического расстояния.

📊 Визуализация отлично показывает её асимметрию — и почему при работе с распределениями важно, в каком порядке их подставлять.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥1

1.94K views17:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Кто первым ввёл термин machine learning в научный обиход?

Anonymous Quiz

❤2

343 voters1.71K views11:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Элегантное решение 😎

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14👍2❤‍🔥1

1.74K views13:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

📊 Топ вопросов с Data Science собеседований — деревья решений и ансамбли, кластеризация, метрические модели. Отличная шпаргалка для подготовки к интервью.

⚖️ Борьба с дисбалансом классов: undersampling — подробный разбор техник уменьшения выборки для балансировки данных.

🧠 Как открытые веса раскрыли секреты обучения GPT-5 — исследователи проанализировали архитектуру и параметры GPT-5, чтобы понять, как OpenAI добилась новых уровней обобщения и стабильности.

👉 Омографы и ударения: как решают задачу в русском языке — команда исследователей создала модель, которая определяет правильные ударения и смысл омографов в текстах.

🌲 Ансамбли в действии: случайный лес и градиентный бустинг — интуитивное объяснение ансамблевых методов с визуализациями и примерами кода.

🧩 Оптимизация источников данных для ML-моделей — как выбирать, чистить и агрегировать данные, чтобы повысить качество модели и сократить время на обучение.

📚 130+ датасетов для машинного обучения — огромная подборка открытых наборов данных, отсортированных по тематике — от NLP до медицины и экономики.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.64K views14:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

1.57K views07:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

53%

40%

👍1

247 voters1.52K views07:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

В proglib.academy — Глобальная распродажа знаний ‼️

💥 Весь октябрь –40% на те курсы, которые выбирают чаще всего.

Курсы с практикой, без воды и пафоса.
Просто берёшь и делаешь апгрейд.

👉 Успей забрать свой курс на proglib.academy

1.58K views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📌

DeepFabric — генерация синтетических датасетов на новом уровне

Для ML-инженеров, исследователей и AI-разработчиков появился инструмент, который упрощает создание высококачественных и разнообразных датасетов для обучения моделей в масштабе.

Что делает DeepFabric:
🔜 Легко превращает идеи и темы в структурированные данные, готовые к обучению моделей.
🔜 Избавляет от проблем с Tool Calls и неструктурированными формами — данные сразу консистентные и стандартизированные.
🔜 Подходит как для fine-tuning, так и для оценки моделей.

Идеально подходит для:
🔜 Быстрой генерации больших объемов обучающих данных.
🔜 Создания синтетических датасетов для NLP, диалогов, reasoning и function-calling задач.
🔜 Исследований и экспериментов с ML-моделями без ручного коллекшена данных.

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1

1.8K views18:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 48 самых популярных открытых датасетов

Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🤩2

1.8K views11:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤓 Пока Python стал π-thon, ты можешь стать Data Scientist'ом

В Proglib.academy стартует экспресс-курс «Математика для Data Science»: 10 живых вебинаров, практика на Python и спикеры из ВШЭ, Яндекс Практикума и Wildberries, которые всё разложат по полочкам.

В программе:
🔹 матан, линал, теория вероятностей;
🔹 3 практических проекта + викторина с розыгрышем TG Premium;
🔹 поддержка преподавателей и чат с единомышленниками;

🎁 Оплати курс до 19 октября — получи курс по базовой математике в подарок.
🗓️ Старт — 6 ноября

👉 Записаться на курс

1.82K views15:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👏

Андрей Карпаты запускает NanoChat — фреймворк для компактных ChatGPT-моделей

Андрей Карпаты представил NanoChat — минималистичный и лёгкий фреймворк для создания небольших LLM-чатов, похожих на ChatGPT.

Цель проекта — сделать обучение и запуск собственных языковых моделей максимально доступным и понятным.

NanoChat отлично подойдёт для обучения, исследований и кастомных решений на базе LLM:
✔️ Открытый исходный код
✔️ Простой и читаемый код
✔️ Быстрый старт и понятная архитектура

📱

Проект уже доступен на GitHub.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥2👍1👏1

2.02K viewsedited 18:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Alibaba выпускает «кулинарную книгу» по Qwen3-VL: от OCR до object grounding

Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.

👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.

➡️

Ссылка на cookbook

👍 Если хочешь прокачать базу, чтобы увереннее работать с моделями и пайплайнами — посмотри курс Математика для Data Science.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🎉2

1.86K views09:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐 Хочешь в Data Science, но не знаешь, с чего начать?

Пройди короткий тест по математике — бот покажет, насколько ты готов к переходу и что стоит подтянуть.

Всего пару минут — и ты поймёшь, куда двигаться дальше.

👉 Пройти тест

❤1🥱1

1.81K views13:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔗

NumPy теперь почти полностью типизирован — 90%

NumPy — один из самых скачиваемых Python-пакетов, и теперь его type-completeness (покрытие типами) выросло с 33% до почти 90%.

Это огромный шаг для всей экосистемы Python и особенно для дата-сайнса.

Оказалось, что одна строчка исправления подняла покрытие типов с 33% до 80%:

# Было
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: CanIndex = 0) -> None: ...

# Стало
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: SupportsIndex = 0) -> None: ...

😁 Да, одна опечатка в аннотации — и вот уже +50% к типовой полноте.

После этого внимание было уделено MaskedArray, где типизация была всего 20%.

Теперь — 100%:

>>> np.mean([x['isTypeKnown'] for x in exported if x['name'].startswith('numpy.ma.core.MaskedArray.')])
np.float64(1.0)

Более полная типизация =
✔️ Умнее автодополнение в IDE
✔️ Меньше ошибок
✔️ Надёжнее библиотеки, зависящие от NumPy (pandas, scikit-learn, xarray и др.)

📝Остаётся типизировать верхнеуровневые функции numpy.ma, уточнить перегрузки и добавить type-checker прямо в CI NumPy. Отличный шанс внести вклад в open source — довести NumPy до 100% тип-совместимости.

🔗

Подробнее

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤2😁2

1.77K viewsedited 20:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎧 Как шпион на вечеринке: Independent Component Analysis (ICA)

Представьте: шумная вечеринка — десятки голосов, музыка, звон бокалов. Каждый микрофон записывает неразборчивую смесь всех звуков.
Но шпион, вооружённый Independent Component Analysis (ICA), извлекает из хаоса отдельные разговоры — как будто разделяет сигналы по смыслу.

Именно это делает ICA в данных: разделяет сложные многомерные сигналы на независимые компоненты.
Если PCA (Principal Component Analysis) ищет некоррелированные оси, то ICA идёт дальше — ищет статистически независимые источники.

Математически это выглядит так:

X = A * S

где,

🟰

X — наблюдаемые данные (смесь сигналов),

🟰

A — матрица смешивания,

🟰

S — исходные независимые компоненты.

ICA пытается найти матрицу W, такую что:

S = W * X

Главная идея — найти компоненты с максимальной негауссовостью, ведь по центральной предельной теореме сумма независимых переменных тяготеет к нормальному распределению.

Пример на Python:

STEP_SIZE = 1e-3
N_ITERATIONS = 50

X_centered = X - np.mean(X, axis=0)
pca = PCA(whiten=True)
X_whitened = pca.fit_transform(X_centered)

n, m = X_whitened.shape
w1 = rng.rand(m)
w1 /= np.linalg.norm(w1) + 1e-10

for i in range(N_ITERATIONS):
    s = np.dot(X_whitened, w1)
    gradient = 4 / n * np.dot(np.pow(s, 3), X_whitened)
    w1 += STEP_SIZE * gradient
    w1 /= np.linalg.norm(w1) + 1e-10

После нахождения первой компоненты выполняется deflation, чтобы следующая была независима:

X_deflated = X_whitened - np.outer(np.dot(X_whitened, w1), w1)

🟰 На практике: используйте FastICA — она оптимизирует все компоненты сразу и автоматически проводит whitening.

🗂

Подробная статья

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3

1.65K views13:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎲 Мы не только учим, но и играем!

На экспресс-курсе «Математика для Data Science» — викторина с призом TG-Premium 🎁
Проверь знания, прокачай математику и забери приз.

‼️ Оплатишь до 19 октября — получишь базовый курс в подарок.

👉 Записаться на курс

1.58K views15:00

About

Blog

Apps

Platform