Анализ данных (Data analysis)
46.9K subscribers
2.53K photos
292 videos
1 file
2.21K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📖 Новая работа ByteDance + Harvard: *Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training*

Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.

🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.

🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине

Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая

🔗 https://arxiv.org/abs/2509.03018

#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard
6🔥6👍4
💰Perplexity привлекла $200M при оценке в $20B.

Это произошло всего через два месяца после предыдущего раунда в $100M при оценке $18B. Общий объём инвестиций приближается к $1.5B.

📊 Выручка (ARR) уже почти $200M (месяц назад была $150M).
💡 Оценка в $20B при $200M ARR даёт мультипликатор ~100x - это возможно только при очень быстром росте и низком уровне оттока пользователей.

Perplexity выделяется тем, что отвечает на запросы с источниками и краткими сводками, заменяя «охоту за ссылками» на результат, сгенерированный моделью.
Но такой дизайн требует больших вычислительных мощностей: каждый запрос запускает веб-поиск, инференс LLM и генерацию ответа в реальном времени.

Источник: https://techcrunch.com/2025/09/10/perplexity-reportedly-raised-200m-at-20b-valuation/

#AI #Perplexity #Funding #Startups #LLM #Investments
👍10🔥86
🚀 Новое исследование Hunyuan: Reinforcement Learning on Pre-training Data (RLPT)

Этот метод решает главную проблему масштабирования LLM - ограниченность размеченного текста.

🌟 RLPT даёт моделям возможность учиться рассуждениям напрямую на данных предобучения, без дорогой ручной разметки.

Как это работает:
1️⃣ Модель во время обучения сама исследует данные и учится более общим стратегиям рассуждений.
2️⃣ Никакой дополнительной разметки — награды извлекаются прямо из предобучающих данных.
3️⃣ Награды за предсказание следующего сегмента позволяют масштабировать RL на этапе предобучения.

Результаты:
На Qwen3-4B-Base прирост: +3.0 (MMLU), +5.1 (MMLU-Pro), +8.1 (GPQA-Diamond), +6.0 (KOR-Bench), +6.6 (AIME24), +5.3 (AIME25).
Чем больше вычислений, тем сильнее рост.
Технология создаёт базу для дальнейших улучшений в RLVR.

📄 Подробнее: https://arxiv.org/pdf/2509.19249

#AI #RLPT #LLM #MachineLearning #NLP

@data_analysis_ml
13👍5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 Hugging Face представили **AI Sheets** — no-code инструмент для создания и обработки таблиц с помощью ИИ.

- Выглядит как обычная таблица, но вместо формул — тысячи моделей
- Поддержка OpenAI-совместимых и локальных LLM
- Можно добавлять столбцы с промптами, редактировать данные вручную или через лайки
- Запуск онлайн или локально (Docker / pnpm)
- Полностью опенсорс (Apache-2.0), легко встроить в пайплайны
- Подходит для классификации, трансформации данных, синтетики и «vibe-тестов» моделей

⚡️ Попробовать

#AI #NoCode #datasets #HuggingFace #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥4👍2👏2
🔥 Новая SOTA среди моделей на 1.5B параметров

QuestA 🤖 показывает двузначный прирост Pass@1 и даже обгоняет ранние 32B-модели:
- AIME24: 72.50% (+10.73%)
- AIME25: 62.29% (+12.79%)
- HMMT25: 41.67% (+10.11%)

🚀 Секрет в обучении: QuestA использует RL с scaffolded-problems — это снимает конфликт между лёгкими и сложными задачами и даёт более масштабируемое рассуждение.

🔓 Всё в открытом доступе:
- Модель: https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
- Тренировочный пайплайн: https://github.com/foreverlasting1202/QuestA
- Статья: https://arxiv.org/abs/2507.13266
- Блог: https://mercurial-kidney-02d.notion.site/QuestA-Expanding-Reasoning-Capacity-in-LLMs-via-Question-Augmentation-216b21d08abb81a1bcecfe79e7d1e88a?pvs=73

#LLM #Reasoning #AI #SOTA

@data_analysis_ml
6👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
💡 Модель Ming-UniAudio — это универсальный фреймворк, сочетающий понимание речи, генерацию и редактирование.

- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.

💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing
8🔥3👍2
🧠 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

🧩 Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔧 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📊 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💡 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

📄 Исследование: https://arxiv.org/abs/2509.25084
💻 Код: https://github.com/zjunlp/DataMind
📊 Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

#AI #DataScience #LLM #Agents #OpenSource #DataAnalysis #ReinforcementLearning #NLP
12🔥8👍3
Forwarded from Machinelearning
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍7