Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5.
Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов.
MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction .
В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно.
Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания.
Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша.
Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей.
Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL.
На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High.
В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач.
В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений.
Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3.
В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах.
@ai_machinelearning_big_data
#AI #ML #LLM #MiMOv2Flash #Xiaomi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍19🔥12🦄2🆒1