Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 Модели и архитектуры
— Большое сравнение LLM-архитектур — от DeepSeek-V3 до Kimi K2.
— Qwen3-Coder: 480B параметров — открытая модель от Alibaba показывает SoTA-результаты.
— Qwen3-235B-A22B-Thinking-2507 — новая масштабируемая reasoning-модель от Alibaba.
— Gemini 2.5 Flash-Lite теперь доступна всем — быстрая и бюджетная модель от Google.
— GPT‑5 уже скоро — по слухам, OpenAI готовит релиз в августе.

🔬 Новые исследования
— Почему модели становятся «глупее» — исследование от Anthropic показывает, что длинные размышления не всегда полезны.
— Сублиминальное обучение — Anthropic обнаружили, что модели могут бессознательно перенимать «убеждения» от других.
— Новый уровень промт-инжиниринга — управление контекстом LLM становится отдельной дисциплиной.

🧑‍💻 Индустрия и платформы
— Kaggle запускает Benchmarks — платформа для объективной оценки AI-моделей.
— ChatGPT — 2.5 млрд запросов в день
— Microsoft переманивает инженеров DeepMind — более 20 сотрудников, включая главу Gemini, ушли к Microsoft.

👍 Опыт других
— 15 кейсов применения NLP
— Пайплайн для прогнозирования временных рядов в Яндексе
— KAN против MLP: архитектурное сравнение
— Автоматизация ML-разработки и ускорение вывода моделей в прод

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥3

1.95K viewsedited 13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎉 OpenCV исполнилось 25 лет — серьёзная веха для мира компьютерного зрения

Библиотека была выпущена Intel в 2000 году как open source — и с тех пор стала стандартом де-факто.

OpenCV democratized компьютерное зрение: сделала доступной обработку изображений и видео не только крупным лабораториям и корпорациям, но и каждому студенту, разработчику и энтузиасту.

Благодаря OpenCV миллионы людей научились:
— распознавать лица и объекты;
— строить системы трекинга и распознавания движений;
— анализировать кадры в реальном времени;
— автоматизировать обработку изображений и видео в исследованиях и бизнесе.

👉 25 лет спустя — это по-прежнему первая библиотека, которую изучают в CV, и первый инструмент, к которому тянется рука при решении практической задачи.
Поздравляем библиотеку — 🎉

🔗

Блог-пост в честь юбилея: https://clc.to/zEyBLQ
А вы помните, с чего началось ваше знакомство с OpenCV?

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉15❤3👍2👏1

1.92K views14:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 ИИ и исследование моделей
— Anthropic автоматизирует аудит Claude — создано три специализированных ИИ-агента.
— Scaling Laws для MoE-моделей — введена метрика Efficiency Leverage, описывающая вычислительную эффективность MoE.
— Новый архитектурный конкурент Transformers — динамическая архитектура с адаптивной рекурсией на уровне токенов.
— GPT получает Study Mode — ChatGPT теперь может обучать студентов пошагово.

⚙️ Новые инструменты и AI-интеграции
— NotebookLM теперь с видео — теперь можно создавать видео-саммари по вашим заметкам, дополняя аудио.
— Google Earth AI — новый набор моделей и датасетов для прогнозов погоды, наводнений, пожаров и планирования городов.
— Copilot Mode в Microsoft Edge — новая AI-фича помогает структурировать работу с вебом.

👍 Опыт других
— Перешла из Data Science в AI Engineering — практический переход и подводные камни.
— Глубокий технический обзор RAG (Retrieval-Augmented Generation).
— 7 кругов ада при выборе ML-стека — практический гид.
— Синтетические данные: подборка инструментов.
— Уменьшение переобучения через работу с данными.
— Как запустить нейросеть локально: 4 простых способа.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2🔥2

1.76K views13:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Вышел PyTorch 2.8

Свежая версия принесла кучу обновлений — от ускорения инференса LLM до новых механизмов доставки колёс и улучшенной поддержки разных архитектур.

Главное:
— Stable ABI (C++/CUDA) — теперь расширения можно собирать один раз и запускать на разных версиях libtorch.
— Квантованный инференс LLM на Intel CPU — высокая производительность прямо в нативном PyTorch.
— Control flow операторы (cond, while_loop, scan, map и др.) для компиляции и экспорта моделей с динамическим управлением потоком.
— CUTLASS backend в Inductor — ещё больше производительных GEMM.
— SafeTensors в Distributed Checkpointing — теперь без проблем с HuggingFace форматом.
— Поддержка SYCL для кастомных операторов на Intel GPU и новый XCCL backend для распределённого обучения.

🔗 Подробнее и полные release notes: https://clc.to/4RVcPQ

Библиотека дата-сайентиста #свежак

👍3⚡2❤1🔥1

2.1K views10:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🚀 Ключевые анонсы и исследования
— Kaggle запускает Game Arena — cовместно с Google DeepMind представлена новая платформа для соревнований ИИ в стратегических играх.
— MIT разработал SEAL — фреймворк для того, чтобы LLM могли самообучаться, генерируя синтетические данные для собственного дообучения.
— OpenAI впервые с GPT-2 выпускает открытые веса — модели gpt-oss-120b и gpt-oss-20b доступны бесплатно для локального запуска.
— Новый инструмент Guided Learning в Google Gemini — AI-репетитор, помогающий строить глубокое понимание материала, а не просто давать ответы.
— GPT-5 официально представлен — 256k контекст, улучшенная маршрутизация, прорывы в кодинге и научных задачах.

👍 Опыт других
— Оптимизация LLM: LoRA и QLoRA
— Решение задачи коммивояжера в реальных приложениях
— Прогнозирование почасовых осадков: опыт Яндекса

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4

2.06K views13:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
— OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
— Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
— Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
— Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
— LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
— Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
— Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
— TRIBE от Meta — тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
— AI research interviews — опыт устройства в OpenAI, советы и инсайты.
— Prompt migrator + optimizer для GPT-5 — OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
— DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍3

1.79K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🔥 Основные новости и исследования
— GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
— GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
— Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
— Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
— PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
— From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
— Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
— Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.

💡 Статьи и обучающие материалы
— Производные, градиенты, матрицы Якоби и Гессе
— Градиентный бустинг для новичков
— Парадигмы обучения на нескольких GPU
— Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

1.78K viewsedited 12:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧑‍💻 Практика и ресурсы
— OpenAI’s Tips for Coding— шпаргалка по использованию GPT-5 для кода.
— Foundations of Large Language Models — бесплатный 200-страничный гайд по LLM.
— Обзор математики для начинающего ML-инженера — концентрат основ.
— Производные, градиенты, матрицы Якоби и Гессе — разбор для практикующих.

🧬 AI в науке
— OpenAI × Retro Biosciences — ИИ-модель перепроектировала белки для омоложения клеток.
— Google Gemini 2.5 — новая модель для редактирования изображений.
— 5 задач, которые UX-исследователи Авито решают с помощью нейросетей — реальные бизнес-кейсы.

📊 Исследования и бенчмарки
— TabArena — первый живой бенчмарк для табличных данных.
— Why Stacking Sliding Windows Can’t See Very Far — разбор фундаментальных ограничений sliding window attention.
— R-Zero — фреймворк для самообучающихся LLM, которые генерируют собственные датасеты с нуля и улучшают рассуждения.

⚡️ Инструменты и библиотеки
— oLLM — лёгкая Python-библиотека для LLM-инференса на длинных контекстах.

🌍 Новости индустрии
— AI Needs Open Source — Peter Wang (Anaconda) о ценности open source для бизнеса и исследований.
— TIME 100 Most Influential in AI (2025) — в списке лидеры вроде Сэма Альтмана и Илона Маска, а также новые фигуры, включая CEO DeepSeek.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

1.82K viewsedited 11:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Большое обновление в pandas: Expressions

Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через pd.col.

Раньше:

df = df.assign(temp_f = lambda x: x['temp_c'] * 9 / 5 + 32)

Теперь:

df = df.assign(temp_f = pd.col('temp_c') * 9 / 5 + 32)

Почему это реально круто:
— Больше никаких непонятных lambda, которые ломаются в циклах.
— Код читается и дебажится проще:

  pd.col('a') + 10  # => (col('a') + 10)

✅ Поддержка str, dt, NumPy ufunc и фильтрации прямо в loc.
✅ Это первый шаг к полноценной системе выражений в духе Polars.

Пример:

df.assign(
    city_upper = pd.col('city').str.upper(),
    log_temp_c = np.log(pd.col('temp_c'))
)

✅ Чище, безопаснее и интуитивнее.
✅ Pandas берёт лучшее у новых библиотек (Polars, Narwhals) и возвращает нас к удобному и современному синтаксису.

🔗

Подробная статья по теме

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍3

1.72K views17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Полезная шпаргалка: как выбрать правильное распределение для данных

1️⃣ Начните с гистограммы

— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).

import matplotlib.pyplot as plt
import numpy as np

data = np.random.normal(50, 15, 1000)
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('Values'); plt.ylabel('Count'); plt.title('Гистограмма данных')
plt.show()

2️⃣ Протестируйте разные распределения

— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:

from distfit import distfit
import numpy as np

my_data = np.random.normal(25, 8, 2000)
fitter = distfit(method='parametric')
fitter.fit_transform(my_data)

print("Лучшее распределение:", fitter.model['name'])
print("Параметры:", fitter.model['params'])

3️⃣ Визуализируйте подгонку

— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15,6))
fitter.plot(chart='PDF', ax=ax1); ax1.set_title('PDF')
fitter.plot(chart='CDF', ax=ax2); ax2.set_title('CDF')
plt.show()

4️⃣

Не забывайте про нестандартные данные

— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).

Пример:

from scipy.stats import binom
count_data = binom(20, 0.3).rvs(1000)
discrete_fitter = distfit(method='discrete')
discrete_fitter.fit_transform(count_data)
discrete_fitter.plot()

5️⃣

Проверяйте стабильность

— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:

fitter.bootstrap(my_data, n_boots=100)
print(fitter.summary[['name','score','bootstrap_score','bootstrap_pass']])

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1

1.96K views09:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧵 Архитектуры и данные
— The Parallelism Mesh Zoo — схемный разбор стратегий параллелизации в PyTorch и JAX через понятие device mesh. Отличный способ проверить, понимаете ли вы, как работает масштабирование на GPU. Читать
— 3 Questions: Synthetic Data — MIT о плюсах и минусах синтетических данных: от приватности и экономии до ограничений и рисков. Читать

🧠 Новые модели и AI-сервисы
— Google EmbeddingGemma — новая open-модель эмбеддингов для офлайн-работы прямо на ноутбуках и смартфонах. Подробнее
— OpenAI Jobs Platform — AI-платформа для поиска работы и сертификации AI-навыков. Подробнее
— Google NotebookLM — теперь умеет аудио-обзоры в 4 форматах: Deep Dive, Brief, Critique и Debate + более естественные голоса. Подробнее

📚 Лонгриды и статьи
— ML Q & AI. Глава 8. Успех трансформеров
—Очеловечить компьютер: как развивалось машинное обучение в середине XX века
— Интерпретация и оптимизация перцептрона Розенблатта
— Что такое детерминизм и как с ним бороться?
— Когда YOLO не спасает: как один параметр может испортить всё

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4

1.77K views13:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Polars теперь с поддержкой GPU — ускорение до 70%

Библиотека Polars получила новый GPU-движок на базе NVIDIA RAPIDS cuDF.

Это значит, что тяжёлые аналитические пайплайны теперь можно прогонять в разы быстрее, используя параллельную обработку данных на GPU.

✔️ В бета-версии уже поддерживаются основные операции
✔️ Ускорение до 70% по сравнению с CPU-исполнением
✔️ Отлично подходит для задач работы с большими датасетами и аналитических воркфлоу

🔗

Подробнее в посте

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍1

2.01K views18:37

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🖥 Инфраструктура и ускорение
— Efficient Multi-GPU LLM Inference — NVIDIA представила NVLink пятого поколения, ускоряющий работу с LLM на триллион параметров.
— Introduction to Gluon — новый язык для GPU-программирования. Позволяет разрабатывать высокопроизводительные ядра с точным контролем над железом.

🤖 LLM и AI-исследования
— Breaking GPT-OSS — разбор устойчивости модели gpt-oss к jailbreak-атакам.
— Robot GPT: где взять столько данных? — для обучения «роботизированного GPT» могут понадобиться десятки тысяч лет сбора данных.
— Как запустить свою LLM — практическое руководство: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang. Всё, что нужно для локального инференса.

📚 Обучение и вводные материалы
— Градиентный спуск для новичков — простое объяснение: почему ошибки — это шаги к оптимизации.
— Простейшая нейросеть на Python — пошаговое объяснение без сложных терминов.
— Снятие проклятия размерности — как правильно изучать свои данные и работать с многомерными признаками.
— Эмбеддинги для начинающих — что это, как применяются и зачем нужны.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

1.79K views10:11

About

Blog

Apps

Platform