Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤓 Пока Python стал π-thon, ты можешь стать Data Scientist'ом

В Proglib.academy стартует экспресс-курс «Математика для Data Science»: 10 живых вебинаров, практика на Python и спикеры из ВШЭ, Яндекс Практикума и Wildberries, которые всё разложат по полочкам.

В программе:
🔹 матан, линал, теория вероятностей;
🔹 3 практических проекта + викторина с розыгрышем TG Premium;
🔹 поддержка преподавателей и чат с единомышленниками;

🎁 Оплати курс до 19 октября — получи курс по базовой математике в подарок.
🗓️ Старт — 6 ноября

👉 Записаться на курс

1.77K views15:07

👏

Андрей Карпаты запускает NanoChat — фреймворк для компактных ChatGPT-моделей

Андрей Карпаты представил NanoChat — минималистичный и лёгкий фреймворк для создания небольших LLM-чатов, похожих на ChatGPT.

Цель проекта — сделать обучение и запуск собственных языковых моделей максимально доступным и понятным.

NanoChat отлично подойдёт для обучения, исследований и кастомных решений на базе LLM:
✔️ Открытый исходный код
✔️ Простой и читаемый код
✔️ Быстрый старт и понятная архитектура

📱

Проект уже доступен на GitHub.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥2👍1👏1

1.94K viewsedited 18:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Alibaba выпускает «кулинарную книгу» по Qwen3-VL: от OCR до object grounding

Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.

👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.

➡️

Ссылка на cookbook

👍 Если хочешь прокачать базу, чтобы увереннее работать с моделями и пайплайнами — посмотри курс Математика для Data Science.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🎉2

1.79K views09:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐 Хочешь в Data Science, но не знаешь, с чего начать?

Пройди короткий тест по математике — бот покажет, насколько ты готов к переходу и что стоит подтянуть.

Всего пару минут — и ты поймёшь, куда двигаться дальше.

👉 Пройти тест

❤1🥱1

1.75K views13:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔗

NumPy теперь почти полностью типизирован — 90%

NumPy — один из самых скачиваемых Python-пакетов, и теперь его type-completeness (покрытие типами) выросло с 33% до почти 90%.

Это огромный шаг для всей экосистемы Python и особенно для дата-сайнса.

Оказалось, что одна строчка исправления подняла покрытие типов с 33% до 80%:

# Было
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: CanIndex = 0) -> None: ...

# Стало
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: SupportsIndex = 0) -> None: ...

😁 Да, одна опечатка в аннотации — и вот уже +50% к типовой полноте.

После этого внимание было уделено MaskedArray, где типизация была всего 20%.

Теперь — 100%:

>>> np.mean([x['isTypeKnown'] for x in exported if x['name'].startswith('numpy.ma.core.MaskedArray.')])
np.float64(1.0)

Более полная типизация =
✔️ Умнее автодополнение в IDE
✔️ Меньше ошибок
✔️ Надёжнее библиотеки, зависящие от NumPy (pandas, scikit-learn, xarray и др.)

📝Остаётся типизировать верхнеуровневые функции numpy.ma, уточнить перегрузки и добавить type-checker прямо в CI NumPy. Отличный шанс внести вклад в open source — довести NumPy до 100% тип-совместимости.

🔗

Подробнее

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤2😁2

1.71K viewsedited 20:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎧 Как шпион на вечеринке: Independent Component Analysis (ICA)

Представьте: шумная вечеринка — десятки голосов, музыка, звон бокалов. Каждый микрофон записывает неразборчивую смесь всех звуков.
Но шпион, вооружённый Independent Component Analysis (ICA), извлекает из хаоса отдельные разговоры — как будто разделяет сигналы по смыслу.

Именно это делает ICA в данных: разделяет сложные многомерные сигналы на независимые компоненты.
Если PCA (Principal Component Analysis) ищет некоррелированные оси, то ICA идёт дальше — ищет статистически независимые источники.

Математически это выглядит так:

X = A * S

где,

🟰

X — наблюдаемые данные (смесь сигналов),

🟰

A — матрица смешивания,

🟰

S — исходные независимые компоненты.

ICA пытается найти матрицу W, такую что:

S = W * X

Главная идея — найти компоненты с максимальной негауссовостью, ведь по центральной предельной теореме сумма независимых переменных тяготеет к нормальному распределению.

Пример на Python:

STEP_SIZE = 1e-3
N_ITERATIONS = 50

X_centered = X - np.mean(X, axis=0)
pca = PCA(whiten=True)
X_whitened = pca.fit_transform(X_centered)

n, m = X_whitened.shape
w1 = rng.rand(m)
w1 /= np.linalg.norm(w1) + 1e-10

for i in range(N_ITERATIONS):
    s = np.dot(X_whitened, w1)
    gradient = 4 / n * np.dot(np.pow(s, 3), X_whitened)
    w1 += STEP_SIZE * gradient
    w1 /= np.linalg.norm(w1) + 1e-10

После нахождения первой компоненты выполняется deflation, чтобы следующая была независима:

X_deflated = X_whitened - np.outer(np.dot(X_whitened, w1), w1)

🟰 На практике: используйте FastICA — она оптимизирует все компоненты сразу и автоматически проводит whitening.

🗂

Подробная статья

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3

1.55K views13:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎲 Мы не только учим, но и играем!

На экспресс-курсе «Математика для Data Science» — викторина с призом TG-Premium 🎁
Проверь знания, прокачай математику и забери приз.

‼️ Оплатишь до 19 октября — получишь базовый курс в подарок.

👉 Записаться на курс

1.5K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 PyTorch 2.9: новые возможности и улучшения

Новая версия приносит улучшения в производительность, переносимость и опыт разработчика:
🔜 Стабильный libtorch ABI для C++/CUDA расширений
🔜 Symmetric memory для мульти-GPU ядер
🔜 Расширенная поддержка wheel: ROCm, XPU, CUDA 13
🔜 Оптимизации для Intel, Arm и x86

С 3,216 коммитами от 452 участников, PyTorch 2.9 продолжает развивать open source AI для разработчиков по всему миру.

🟡

Полный блог о релизе: https://clc.to/Pvqrqw

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰4👏4👍1

4.51K views18:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Интерактивный гайд по 4 ключевым задачам с Transformers

Мы нашли мощный материал, который объясняет, как использовать модели ViT, DETR, BLIP и ViLT для самых базовых, но фундаментальных задач Computer Vision:
— Image Classification — классификация изображений с помощью Vision Transformer (ViT).
— Image Segmentation — точное выделение объектов на изображении с DETR и Mask2Former.
— Image Captioning — генерация описаний изображений с BLIP.
— Visual Question Answering (VQA) — ответы на вопросы по изображению с ViLT и BLIP.

ℹ️ Гайд показывает, как трансформеры постепенно вытесняют CNN и становятся универсальным решением — от анализа пикселей до генерации текстов и ответов.

➡️

Полный разбор и демо-приложение

💡 Хочешь разбираться в таких архитектурах глубже — с математикой, алгоритмами и практикой?
Сейчас в Proglib действует акция –40% на курс Математика для Data Science

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

1.46K views09:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Недавно мы анонсировали старт нового курса «Математика для Data Science».

В ближайшие дни выйдет серия постов о том, что ждёт вас на курсе, а пока познакомим вас с его экспертами.

Спикеры курса:

👤 Ксения Кондаурова
Преподаватель и автор курсов для бакалавриата Центрального Университета (Т-Банк), спикер и методист для Edutoria (Сбербанк). Ксения расскажет, как линейная алгебра применяется для построения предсказательных моделей, и научит проверять гипотезы для бизнеса с помощью статистики.

👤 Диана Миронидис
Преподаватель НИУ ВШЭ, автор и методист Яндекс Практикума. Самый экстравагантный преподаватель из всех, с кем вы учились, — убедитесь, что математика может быть нескучной. Диана погрузит в математический анализ, научит исследовать функции и находить параметры, при которых ошибка модели минимальна.

👤 Маргарита Бурова
Академический руководитель образовательных программ по аналитике и анализу данных, Wildberries & Russ. Проведёт квиз с розыгрышем годовой подписки TG Premium. Маргарита — эксперт в дата-сайенс, ИИ и математических методах анализа данных, фанат развития ИТ-образования.

Вместе с экспертами за 8 недель вы не просто получите знания, а познакомитесь с математикой заново.

🎁 Только при оплате до 19 октября курс «Базовая математика» в подарок!

👉 Записаться на курс

😁1

1.35K views15:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8👍1🌚1

1.46K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему фреймворк Apache Hadoop получил такое название?

Anonymous Quiz

13%

В честь индийского бога знаний

46%

В честь игрушечного слонёнка сына создателя

37%

Аббревиатура от High-Performance Data Operations

Случайный набор букв

😁1

321 voters1.35K views09:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

♾️ 17 формул, которые изменили мир

Математика в действии — как уравнения, придуманные века назад, сегодня управляют интернетом, медициной, космосом и вашими финансами.

📎 Читать статью

А если после статьи захотите разобраться, как эта математика работает в Data Science — вот экспресс-курс, который всё расставит по полочкам:

«Математика для Data Science»

— практика и живые уроки
— разбор кода и проверка домашних
— поддержка в Telegram-чате

🎓 За 2 месяца поймёте, как работают алгоритмы ML под капотом.
🗓️ Старт — 6 ноября

👉 Записаться на курс

1.24K views16:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🖥

Модели и инфраструктура
— Andrej Karpathy запускает nanochat — новый лёгкий фреймворк для сборки маленьких ChatGPT-подобных моделей.
— Внутри vLLM — подробный разбор архитектуры и оптимизаций движка vLLM.

📘 Обучение и теория
— The Ultimate Guide to Fine-Tuning LLMs — бесплатная 115-страничная книга, охватывающая всю теорию Fine-Tuning моделей.
— Stanford: разнообразие без переобучения — исследователи из Стэнфорда представили Verbalized Sampling — метод промптинга, который восстанавливает вариативность базовых моделей и повышает качество без дообучения.

🧩 Практика и примеры
— Как построить RAG-систему за вечер — практическое руководство по сборке Retrieval-Augmented Generation.
— Как оценить качество машинного перевода — метрики BLEU, METEOR, TER и современные ML-подходы к оценке качества перевода.

📊 Исследования и размышления
— Почему линейная регрессия всё ещё обыгрывает трансформеры — разбор причин, по которым классические методы остаются лучшими для временных рядов.
— Andrej Karpathy: AGI ещё не скоро — всвежем интервью Карпати рассуждает о будущем AGI, провале RL.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🎉2❤1

1.08K views14:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏰ Сегодня последний день!

🎁 Только при оплате до 19 октября — курс «Базовая математика» в подарок!

Успей попасть на экспресс-курс «Математика для Data Science» — 10 живых вебинаров, практика на Python, поддержка менторов и преподаватели из ВШЭ, Яндекс Практикума и Wildberries.

За 2 месяца разберёшься с тем, на чём держится Data Science:

• векторы, матрицы и регрессия;
• градиенты, оптимизация, вероятности и статистика;
• реальные задачи анализа данных;

🎓 Построишь математический фундамент и поймёшь, как работают алгоритмы ML под капотом.

👉 Записаться на курс

Старт — 6 ноября, не упусти бонус!🎁

1.19K views15:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.15K views08:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

👍1

407 voters1.21K views08:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤯 Наконец-то понятен self-attention

Одна из самых сложных частей понимания LLM — это self-attention. Формула выглядит простой — её можно быстро выучить.

Но что на самом деле означают Q, K и V и как они взаимодействуют — совсем другая история.

✅ Эта визуализация делает всё очень наглядным и понятным — видно, как queries обращаются к keys и получают нужные values.

🤨 Чтобы лучше понимать, как работают модели на математическом уровне, советуем курс Математика для Data Science.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2🔥2

1.22K views18:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14👍1

1.04K views09:45

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Когда понимаешь SOLID — жизнь становится проще

В октябре действует скидка 40% на все курсы от Proglib Academy, включая интенсив «Архитектуры и шаблоны проектирования»

📘 На интенсиве ты:

— разберёшься, как проектировать приложения, которые не ломаются при каждом изменении;
— освоишь SOLID-принципы, IoC, адаптеры и фабрики;
— научишься строить масштабируемые архитектуры;
— создашь собственную игру «Звёздные войны».

👨‍💻 Примеры кода на C#, Java, Python, PHP, C++ и JavaScript. Главное — понимать принципы, а не язык.

Преподаватель — Евгений Тюменцев, директор компании HWdTech, разрабатывал многопоточные кроссплатформенные приложения для IBM Watson.

📆 Формат: онлайн, 1 месяц.
📚 9 лекций + 2 бонусных занятия + практика.

Интенсив подойдёт джунам, которые хотят апнуться до мидла, и мидлам, мечтающим о роли архитектора.

👉 Переходи к курсам со скидкой 40%

992 views15:00

About

Blog

Apps

Platform