Forwarded from Machinelearning
Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений
Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска
Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач
Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.
Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.
Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.
NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.
Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.@ai_machinelearning_big_data
#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤5👍5
🎉 MiMo-V2-Flash - бесплатный API доступен на ModelScope
Первый крупный релиз Xiaomi после прихода Fuli Luo — и сразу ставка на реальные agentic-сценарии, а не «лабораторные» демо.
⚡ MiMo-V2-Flash - открытая высокопроизводительная MoE-модель:
- 309B параметров всего / 15B активных
- Контекст 256K токенов
- 150+ токенов в секунду благодаря нативному Multi-Token Prediction
🔥 Ключевые преимущества для разработчиков:
- Гибридное внимание (5:1 SWA + Global)
→ в 6 раз меньше KV-кэша без потери длинного контекста
- 73.4% на SWE-Bench Verified — новый SOTA среди open-source моделей
- Качество рассуждений на уровне DeepSeek-V3.2, но заметно выше скорость в реальных задачах
✨ API-ready
Отлично подходит для:
- агентных систем
- длинных reasoning-пайплайнов
- быстрых и отзывчивых AI-ассистентов
Модель доступна на ModelScope:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash
#AI #LLM #MoE #OpenSource #AgenticAI #Xiaomi #ModelScope
Первый крупный релиз Xiaomi после прихода Fuli Luo — и сразу ставка на реальные agentic-сценарии, а не «лабораторные» демо.
⚡ MiMo-V2-Flash - открытая высокопроизводительная MoE-модель:
- 309B параметров всего / 15B активных
- Контекст 256K токенов
- 150+ токенов в секунду благодаря нативному Multi-Token Prediction
🔥 Ключевые преимущества для разработчиков:
- Гибридное внимание (5:1 SWA + Global)
→ в 6 раз меньше KV-кэша без потери длинного контекста
- 73.4% на SWE-Bench Verified — новый SOTA среди open-source моделей
- Качество рассуждений на уровне DeepSeek-V3.2, но заметно выше скорость в реальных задачах
✨ API-ready
Отлично подходит для:
- агентных систем
- длинных reasoning-пайплайнов
- быстрых и отзывчивых AI-ассистентов
Модель доступна на ModelScope:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash
#AI #LLM #MoE #OpenSource #AgenticAI #Xiaomi #ModelScope
❤4👍3🥰2🤣1