Media is too big
VIEW IN TELEGRAM
Это World-модель, работающая сразу с двумя потоками - текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.
- 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL - в результате модель демонстрирует сильное мультимодальное рассуждение и генерация
- ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов - в итоге это дает примерно 20× быстрее инференс без потери качества.
По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.
@ai_machinelearning_big_data
#Emu3 #MultimodalAI #WorldModel #NextTokenPrediction
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍35❤20🎉9🤩7👏6🤔4💯3