Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🆕 Свежие новости для дата‑сайентистов

🧠 AI-бизнес
Windsurf распадается, топы уходят в Google — Google DeepMind наняла CEO Windsurf Варуна Мохана и ключевых инженеров после провала сделки OpenAI на $3 млрд.
Apple серьёзно рассматривает покупку Mistral —покупка укрепит позиции Apple в генеративном ИИ.
Mira Murati (экс-CTO OpenAI) привлекла $2B для Thinking Machines.

📈 Модели и исследования
Kimi-K2 от Moonshot AI — триллион параметров, архитектура MoE, открытый код — и обгон GPT-4 в ключевых задачах.
Gemini 2.5 – полный отчёт — новое поколение от Google: лучшее кодирование, мультимодальность, long-context reasoning.
Gemini Embedding теперь в Vertex AI и Gemini API — единая модель эмбеддингов, превосходящая предыдущие версии.
Voxtral от Mistral — открытые модели для распознавания и понимания речи.
Marin от Stanford — первая полностью открытая модель, обученная на JAX.

🛠 Инфраструктура и инструменты
NVIDIA cuda.cccl — упрощает создание быстрых GPU-алгоритмов в PyTorch.
Veo 3 теперь доступен в Gemini API — генерация видео с озвучкой, музыкой и сценарием — по одному промпту.
ChatGPT Agent — следующий шаг от OpenAI — виртуальный ассистент, выполняющий сложные задачи.

📚 Статьи и исследования
LLM Daydreaming — почему LLM не «мечтают».
Grok 4 от xAI: умный, но небезопасный.
Context Rot — почему производительность LLM падает на длинных входах.
Power Attention — новая реализация внимания.

👍 Опыт других
Matrix Reloaded: зачем дата-сайентисту линейная алгебра.
Деградация предсказаний модели: причины и методы анализа.
MCP для новичков — про Model Context Protocol.
Few-shot learning: основы и применения.
BI: 5 трендов в сфере ИИ.
ИИ на edge-устройствах — как уместить большие модели на малом железе.

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
🔥 Новый уровень CUDA в Python: знакомьтесь с `cuda.cccl`

Теперь не нужно писать кастомные CUDA-ядра или лезть в C++ — cuda.cccl позволяет собирать мощные алгоритмы на Python, используя CUB и Thrust под капотом.

Библиотека делится на:
parallel — высокоуровневые, компонуемые алгоритмы над массивами и итераторами.
cooperative — блок/варп-ориентированные примитивы для numba.cuda.

Почему быстрее:
Никакой лишней памяти — итераторы вместо массивов.
Один фьюзнутый kernel вместо четырёх.
Минимум overhead'а от Python.

Кому пригодится:
Тем, кто пишет кастомные алгоритмы над PyTorch или CuPy.
Тем, кто хочет тонкий контроль над CUDA без C++.
Тем, кто расширяет существующие библиотеки или разрабатывает свои.

Установка:
pip install cuda-cccl


👉 Подробнее: https://clc.to/4qFCRQ

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3❤‍🔥1
🔎 Kaggle запускает Benchmarks — открытую платформу для оценки AI-моделей

Сегодня Kaggle представил Kaggle Benchmarks — новую платформу, где можно тестировать AI-модели на ведущих академических бенчмарках бесплатно и без сложной настройки.

Kaggle собрал более 70 академических бенчмарков от ведущих исследовательских лабораторий, включая код, данные и методики оценки, чтобы воспроизводить результаты независимо и прозрачно.

Появилась возможность (пока в превью) создавать собственные бенчмарки и автоматически запускать их на популярных LLM-моделях. То есть можно тестировать свои модели или сравнивать чужие в один клик.

Вместе с релизом вышли два крупных бенчмарка:
— Meta Multiloko — масштабный мультиязычный бенчмарк от Meta.
— ICML 2025 Experts Benchmark — crowdsourced-набор задач от участников ICML, отражающий реальные вызовы, с которыми сталкиваются ML-исследователи.

🔗 Подробнее: https://clc.to/YpUQkA

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🔥1
🆕 Свежие новости для дата‑сайентистов

🧠 Модели и архитектуры
Большое сравнение LLM-архитектур — от DeepSeek-V3 до Kimi K2.
Qwen3-Coder: 480B параметров — открытая модель от Alibaba показывает SoTA-результаты.
Qwen3-235B-A22B-Thinking-2507 — новая масштабируемая reasoning-модель от Alibaba.
Gemini 2.5 Flash-Lite теперь доступна всем — быстрая и бюджетная модель от Google.
GPT‑5 уже скоро — по слухам, OpenAI готовит релиз в августе.

🔬 Новые исследования
Почему модели становятся «глупее» — исследование от Anthropic показывает, что длинные размышления не всегда полезны.
Сублиминальное обучение — Anthropic обнаружили, что модели могут бессознательно перенимать «убеждения» от других.
Новый уровень промт-инжиниринга — управление контекстом LLM становится отдельной дисциплиной.

🧑‍💻 Индустрия и платформы
Kaggle запускает Benchmarks — платформа для объективной оценки AI-моделей.
ChatGPT — 2.5 млрд запросов в день
Microsoft переманивает инженеров DeepMind — более 20 сотрудников, включая главу Gemini, ушли к Microsoft.

👍 Опыт других
15 кейсов применения NLP
Пайплайн для прогнозирования временных рядов в Яндексе
KAN против MLP: архитектурное сравнение
Автоматизация ML-разработки и ускорение вывода моделей в прод

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥3
🎉 OpenCV исполнилось 25 лет — серьёзная веха для мира компьютерного зрения

Библиотека была выпущена Intel в 2000 году как open source — и с тех пор стала стандартом де-факто.

OpenCV democratized компьютерное зрение: сделала доступной обработку изображений и видео не только крупным лабораториям и корпорациям, но и каждому студенту, разработчику и энтузиасту.

Благодаря OpenCV миллионы людей научились:
— распознавать лица и объекты;
— строить системы трекинга и распознавания движений;
— анализировать кадры в реальном времени;
— автоматизировать обработку изображений и видео в исследованиях и бизнесе.

👉 25 лет спустя — это по-прежнему первая библиотека, которую изучают в CV, и первый инструмент, к которому тянется рука при решении практической задачи.
Поздравляем библиотеку — 🎉

🔗 Блог-пост в честь юбилея: https://clc.to/zEyBLQ
А вы помните, с чего началось ваше знакомство с OpenCV?

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉153👍2👏1
🆕 Свежие новости для дата‑сайентистов

🧠 ИИ и исследование моделей
Anthropic автоматизирует аудит Claude — создано три специализированных ИИ-агента.
Scaling Laws для MoE-моделей — введена метрика Efficiency Leverage, описывающая вычислительную эффективность MoE.
Новый архитектурный конкурент Transformers — динамическая архитектура с адаптивной рекурсией на уровне токенов.
GPT получает Study Mode — ChatGPT теперь может обучать студентов пошагово.

⚙️ Новые инструменты и AI-интеграции
NotebookLM теперь с видео — теперь можно создавать видео-саммари по вашим заметкам, дополняя аудио.
Google Earth AI — новый набор моделей и датасетов для прогнозов погоды, наводнений, пожаров и планирования городов.
Copilot Mode в Microsoft Edge — новая AI-фича помогает структурировать работу с вебом.

👍 Опыт других
Перешла из Data Science в AI Engineering — практический переход и подводные камни.
Глубокий технический обзор RAG (Retrieval-Augmented Generation).
7 кругов ада при выборе ML-стека — практический гид.
Синтетические данные: подборка инструментов.
Уменьшение переобучения через работу с данными.
Как запустить нейросеть локально: 4 простых способа.

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2
🚀 Вышел PyTorch 2.8

Свежая версия принесла кучу обновлений — от ускорения инференса LLM до новых механизмов доставки колёс и улучшенной поддержки разных архитектур.

Главное:
— Stable ABI (C++/CUDA) — теперь расширения можно собирать один раз и запускать на разных версиях libtorch.
— Квантованный инференс LLM на Intel CPU — высокая производительность прямо в нативном PyTorch.
— Control flow операторы (cond, while_loop, scan, map и др.) для компиляции и экспорта моделей с динамическим управлением потоком.
— CUTLASS backend в Inductor — ещё больше производительных GEMM.
— SafeTensors в Distributed Checkpointing — теперь без проблем с HuggingFace форматом.
— Поддержка SYCL для кастомных операторов на Intel GPU и новый XCCL backend для распределённого обучения.

🔗 Подробнее и полные release notes: https://clc.to/4RVcPQ

Библиотека дата-сайентиста #свежак
👍321🔥1
🆕 Свежие новости для дата‑сайентистов

🚀 Ключевые анонсы и исследования
Kaggle запускает Game Arena — cовместно с Google DeepMind представлена новая платформа для соревнований ИИ в стратегических играх.
MIT разработал SEAL — фреймворк для того, чтобы LLM могли самообучаться, генерируя синтетические данные для собственного дообучения.
OpenAI впервые с GPT-2 выпускает открытые веса — модели gpt-oss-120b и gpt-oss-20b доступны бесплатно для локального запуска.
Новый инструмент Guided Learning в Google Gemini — AI-репетитор, помогающий строить глубокое понимание материала, а не просто давать ответы.
GPT-5 официально представлен — 256k контекст, улучшенная маршрутизация, прорывы в кодинге и научных задачах.

👍 Опыт других
Оптимизация LLM: LoRA и QLoRA
Решение задачи коммивояжера в реальных приложениях
Прогнозирование почасовых осадков: опыт Яндекса

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54
🆕 Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
TRIBE от Meta тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
AI research interviews — опыт устройства в OpenAI, советы и инсайты.
Prompt migrator + optimizer для GPT-5 OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍3
🆕 Свежие новости для дата‑сайентистов

🔥 Основные новости и исследования
GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.


💡 Статьи и обучающие материалы
Производные, градиенты, матрицы Якоби и Гессе
Градиентный бустинг для новичков
Парадигмы обучения на нескольких GPU
Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3