This media is not supported in your browser
VIEW IN TELEGRAM
🐙 OctoSQL — единый SQL для всех источников данных
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
📱 Репозиторий: https://clc.to/fR5Lsw
🐸 Библиотека дата-сайентиста
#буст
Инструмент, который позволяет писать SQL-запросы к любым базам данных и форматам файлов через единый интерфейс.
Можно даже делать JOIN между разными источниками — например, объединить JSON-файл с таблицей в PostgreSQL.
💡 OctoSQL — не просто CLI-утилита, а полноценный движок потоковой обработки данных, который легко встраивается в собственные приложения, добавляя им SQL-интерфейс.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Все слышали про KL Divergence, но не все задумывались — почему дивергенция, а не расстояние?
Чтобы мера считалась distance, она должна быть:
Но KL Divergence: 🚫 несимметрична — Dₖₗ(P∥Q) ≠ Dₖₗ(Q∥P), поэтому это не метрика.
💡 Тогда почему дивергенция
Потому что она показывает, насколько одно распределение отклоняется от другого, а не насколько далеко в метрическом смысле.
Или проще: KL Divergence — это мера информационной разницы, а не физического расстояния.
📊 Визуализация отлично показывает её асимметрию — и почему при работе с распределениями важно, в каком порядке их подставлять.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
Кто первым ввёл термин machine learning в научный обиход?
Anonymous Quiz
27%
Джеффри Хинтон
17%
Артур Сэмюэл
40%
Алан Тьюринг
16%
Клод Шеннон
❤2
📊 Топ вопросов с Data Science собеседований — деревья решений и ансамбли, кластеризация, метрические модели. Отличная шпаргалка для подготовки к интервью.
⚖️ Борьба с дисбалансом классов: undersampling — подробный разбор техник уменьшения выборки для балансировки данных.
🧠 Как открытые веса раскрыли секреты обучения GPT-5 — исследователи проанализировали архитектуру и параметры GPT-5, чтобы понять, как OpenAI добилась новых уровней обобщения и стабильности.
👉 Омографы и ударения: как решают задачу в русском языке — команда исследователей создала модель, которая определяет правильные ударения и смысл омографов в текстах.
🌲 Ансамбли в действии: случайный лес и градиентный бустинг — интуитивное объяснение ансамблевых методов с визуализациями и примерами кода.
🧩 Оптимизация источников данных для ML-моделей — как выбирать, чистить и агрегировать данные, чтобы повысить качество модели и сократить время на обучение.
📚 130+ датасетов для машинного обучения — огромная подборка открытых наборов данных, отсортированных по тематике — от NLP до медицины и экономики.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
В proglib.academy — Глобальная распродажа знаний ‼️
💥 Весь октябрь –40% на те курсы, которые выбирают чаще всего.
👉 Успей забрать свой курс на proglib.academy
💥 Весь октябрь –40% на те курсы, которые выбирают чаще всего.
Курсы с практикой, без воды и пафоса.
Просто берёшь и делаешь апгрейд.
👉 Успей забрать свой курс на proglib.academy
Для ML-инженеров, исследователей и AI-разработчиков появился инструмент, который упрощает создание высококачественных и разнообразных датасетов для обучения моделей в масштабе.
Что делает DeepFabric:
Идеально подходит для:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1
📊 48 самых популярных открытых датасетов
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
🐸 Библиотека дата-сайентиста
#буст
Для всех, кто ищет готовые данные для экспериментов, обучения моделей или просто прокачки навыков.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤩2
🤓 Пока Python стал π-thon, ты можешь стать Data Scientist'ом
В Proglib.academy стартует экспресс-курс «Математика для Data Science»: 10 живых вебинаров, практика на Python и спикеры из ВШЭ, Яндекс Практикума и Wildberries, которые всё разложат по полочкам.
В программе:
🔹 матан, линал, теория вероятностей;
🔹 3 практических проекта + викторина с розыгрышем TG Premium;
🔹 поддержка преподавателей и чат с единомышленниками;
🎁 Оплати курс до 19 октября — получи курс по базовой математике в подарок.
🗓️ Старт — 6 ноября
👉 Записаться на курс
В Proglib.academy стартует экспресс-курс «Математика для Data Science»: 10 живых вебинаров, практика на Python и спикеры из ВШЭ, Яндекс Практикума и Wildberries, которые всё разложат по полочкам.
В программе:
🔹 матан, линал, теория вероятностей;
🔹 3 практических проекта + викторина с розыгрышем TG Premium;
🔹 поддержка преподавателей и чат с единомышленниками;
🎁 Оплати курс до 19 октября — получи курс по базовой математике в подарок.
🗓️ Старт — 6 ноября
👉 Записаться на курс
Андрей Карпаты представил NanoChat — минималистичный и лёгкий фреймворк для создания небольших LLM-чатов, похожих на ChatGPT.
Цель проекта — сделать обучение и запуск собственных языковых моделей максимально доступным и понятным.
NanoChat отлично подойдёт для обучения, исследований и кастомных решений на базе LLM:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥2👍1👏1
🔥 Alibaba выпускает «кулинарную книгу» по Qwen3-VL: от OCR до object grounding
Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.
👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.
➡️ Ссылка на cookbook
👍 Если хочешь прокачать базу, чтобы увереннее работать с моделями и пайплайнами — посмотри курс Математика для Data Science.
🐸 Библиотека дата-сайентиста
#буст
Это не просто демки — это реально практические рецепты, как собрать свои VLM-пайплайны, понять, как Qwen3-VL обрабатывает визуальные токены и подключить всё к своим задачам.
👏 Отличный ресурс для ML-инженеров, работающих с мульти-модальными моделями.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🎉2
🧐 Хочешь в Data Science, но не знаешь, с чего начать?
Пройди короткий тест по математике — бот покажет, насколько ты готов к переходу и что стоит подтянуть.
👉 Пройти тест
Пройди короткий тест по математике — бот покажет, насколько ты готов к переходу и что стоит подтянуть.
Всего пару минут — и ты поймёшь, куда двигаться дальше.
👉 Пройти тест
❤1🥱1
NumPy — один из самых скачиваемых Python-пакетов, и теперь его type-completeness (покрытие типами) выросло с 33% до почти 90%.
Это огромный шаг для всей экосистемы Python и особенно для дата-сайнса.
Оказалось, что одна строчка исправления подняла покрытие типов с 33% до 80%:
# Было
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: CanIndex = 0) -> None: ...
# Стало
def setfield(self, /, val: ArrayLike, dtype: DTypeLike, offset: SupportsIndex = 0) -> None: ...
После этого внимание было уделено
MaskedArray
, где типизация была всего 20%.Теперь — 100%:
>>> np.mean([x['isTypeKnown'] for x in exported if x['name'].startswith('numpy.ma.core.MaskedArray.')])
np.float64(1.0)
Более полная типизация =
pandas
, scikit-learn
, xarray
и др.)numpy.ma
, уточнить перегрузки и добавить type-checker прямо в CI NumPy. Отличный шанс внести вклад в open source — довести NumPy до 100% тип-совместимости.#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2😁2
🎧 Как шпион на вечеринке: Independent Component Analysis (ICA)
Представьте: шумная вечеринка — десятки голосов, музыка, звон бокалов. Каждый микрофон записывает неразборчивую смесь всех звуков.
Но шпион, вооружённый Independent Component Analysis (ICA), извлекает из хаоса отдельные разговоры — как будто разделяет сигналы по смыслу.
Именно это делает ICA в данных: разделяет сложные многомерные сигналы на независимые компоненты.
Если PCA (Principal Component Analysis) ищет некоррелированные оси, то ICA идёт дальше — ищет статистически независимые источники.
Математически это выглядит так:
где,
🟰
🟰
🟰
ICA пытается найти матрицу
Главная идея — найти компоненты с максимальной негауссовостью, ведь по центральной предельной теореме сумма независимых переменных тяготеет к нормальному распределению.
Пример на Python:
После нахождения первой компоненты выполняется deflation, чтобы следующая была независима:
🟰 На практике: используйте FastICA — она оптимизирует все компоненты сразу и автоматически проводит whitening.
🗂 Подробная статья
🐸 Библиотека дата-сайентиста
#буст
Представьте: шумная вечеринка — десятки голосов, музыка, звон бокалов. Каждый микрофон записывает неразборчивую смесь всех звуков.
Но шпион, вооружённый Independent Component Analysis (ICA), извлекает из хаоса отдельные разговоры — как будто разделяет сигналы по смыслу.
Именно это делает ICA в данных: разделяет сложные многомерные сигналы на независимые компоненты.
Если PCA (Principal Component Analysis) ищет некоррелированные оси, то ICA идёт дальше — ищет статистически независимые источники.
Математически это выглядит так:
X = A * S
где,
X
— наблюдаемые данные (смесь сигналов),A
— матрица смешивания,S
— исходные независимые компоненты.ICA пытается найти матрицу
W
, такую что:S = W * X
Главная идея — найти компоненты с максимальной негауссовостью, ведь по центральной предельной теореме сумма независимых переменных тяготеет к нормальному распределению.
Пример на Python:
STEP_SIZE = 1e-3
N_ITERATIONS = 50
X_centered = X - np.mean(X, axis=0)
pca = PCA(whiten=True)
X_whitened = pca.fit_transform(X_centered)
n, m = X_whitened.shape
w1 = rng.rand(m)
w1 /= np.linalg.norm(w1) + 1e-10
for i in range(N_ITERATIONS):
s = np.dot(X_whitened, w1)
gradient = 4 / n * np.dot(np.pow(s, 3), X_whitened)
w1 += STEP_SIZE * gradient
w1 /= np.linalg.norm(w1) + 1e-10
После нахождения первой компоненты выполняется deflation, чтобы следующая была независима:
X_deflated = X_whitened - np.outer(np.dot(X_whitened, w1), w1)
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
🎲 Мы не только учим, но и играем!
На экспресс-курсе «Математика для Data Science» — викторина с призом TG-Premium 🎁
Проверь знания, прокачай математику и забери приз.
‼️ Оплатишь до 19 октября — получишь базовый курс в подарок.
👉 Записаться на курс
На экспресс-курсе «Математика для Data Science» — викторина с призом TG-Premium 🎁
Проверь знания, прокачай математику и забери приз.
‼️ Оплатишь до 19 октября — получишь базовый курс в подарок.
👉 Записаться на курс
🔥 PyTorch 2.9: новые возможности и улучшения
Новая версия приносит улучшения в производительность, переносимость и опыт разработчика:
🔜 Стабильный libtorch ABI для C++/CUDA расширений
🔜 Symmetric memory для мульти-GPU ядер
🔜 Расширенная поддержка wheel: ROCm, XPU, CUDA 13
🔜 Оптимизации для Intel, Arm и x86
С 3,216 коммитами от 452 участников, PyTorch 2.9 продолжает развивать open source AI для разработчиков по всему миру.
🟡 Полный блог о релизе: https://clc.to/Pvqrqw
🐸 Библиотека дата-сайентиста
#свежак
Новая версия приносит улучшения в производительность, переносимость и опыт разработчика:
С 3,216 коммитами от 452 участников, PyTorch 2.9 продолжает развивать open source AI для разработчиков по всему миру.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰4👏4👍1
Мы нашли мощный материал, который объясняет, как использовать модели ViT, DETR, BLIP и ViLT для самых базовых, но фундаментальных задач Computer Vision:
— Image Classification — классификация изображений с помощью Vision Transformer (ViT).
— Image Segmentation — точное выделение объектов на изображении с DETR и Mask2Former.
— Image Captioning — генерация описаний изображений с BLIP.
— Visual Question Answering (VQA) — ответы на вопросы по изображению с ViLT и BLIP.
💡 Хочешь разбираться в таких архитектурах глубже — с математикой, алгоритмами и практикой?
Сейчас в Proglib действует акция –40% на курс Математика для Data Science
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
Недавно мы анонсировали старт нового курса «Математика для Data Science».
В ближайшие дни выйдет серия постов о том, что ждёт вас на курсе, а пока познакомим вас с его экспертами.
Спикеры курса:
👤 Ксения Кондаурова
Преподаватель и автор курсов для бакалавриата Центрального Университета (Т-Банк), спикер и методист для Edutoria (Сбербанк). Ксения расскажет, как линейная алгебра применяется для построения предсказательных моделей, и научит проверять гипотезы для бизнеса с помощью статистики.
👤 Диана Миронидис
Преподаватель НИУ ВШЭ, автор и методист Яндекс Практикума. Самый экстравагантный преподаватель из всех, с кем вы учились, — убедитесь, что математика может быть нескучной. Диана погрузит в математический анализ, научит исследовать функции и находить параметры, при которых ошибка модели минимальна.
👤 Маргарита Бурова
Академический руководитель образовательных программ по аналитике и анализу данных, Wildberries & Russ. Проведёт квиз с розыгрышем годовой подписки TG Premium. Маргарита — эксперт в дата-сайенс, ИИ и математических методах анализа данных, фанат развития ИТ-образования.
Вместе с экспертами за 8 недель вы не просто получите знания, а познакомитесь с математикой заново.
🎁 Только при оплате до 19 октября курс «Базовая математика» в подарок!
👉 Записаться на курс
В ближайшие дни выйдет серия постов о том, что ждёт вас на курсе, а пока познакомим вас с его экспертами.
Спикеры курса:
👤 Ксения Кондаурова
Преподаватель и автор курсов для бакалавриата Центрального Университета (Т-Банк), спикер и методист для Edutoria (Сбербанк). Ксения расскажет, как линейная алгебра применяется для построения предсказательных моделей, и научит проверять гипотезы для бизнеса с помощью статистики.
👤 Диана Миронидис
Преподаватель НИУ ВШЭ, автор и методист Яндекс Практикума. Самый экстравагантный преподаватель из всех, с кем вы учились, — убедитесь, что математика может быть нескучной. Диана погрузит в математический анализ, научит исследовать функции и находить параметры, при которых ошибка модели минимальна.
👤 Маргарита Бурова
Академический руководитель образовательных программ по аналитике и анализу данных, Wildberries & Russ. Проведёт квиз с розыгрышем годовой подписки TG Premium. Маргарита — эксперт в дата-сайенс, ИИ и математических методах анализа данных, фанат развития ИТ-образования.
Вместе с экспертами за 8 недель вы не просто получите знания, а познакомитесь с математикой заново.
🎁 Только при оплате до 19 октября курс «Базовая математика» в подарок!
👉 Записаться на курс
😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8👍1🌚1