Machinelearning

🚀 Emu3.5 - новая масштабная мультимодальная world-модель

Это World-модель, работающая сразу с двумя потоками - текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.

- 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL - в результате модель демонстрирует сильное мультимодальное рассуждение и генерация
- ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов - в итоге это дает примерно 20× быстрее инференс без потери качества.

По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.

🟠

Попробовать: Emu3.5: https://emu.world

🟠

Github: https://github.com/baaivision/Emu3.5

@ai_machinelearning_big_data

#Emu3 #MultimodalAI #WorldModel #NextTokenPrediction

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥88👍36❤22🎉10🤩7👏6🤔4💯3

34.3K viewsedited 12:33

About

Blog

Apps

Platform