382K subscribers
4.49K photos
872 videos
17 files
4.92K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Minimax VTP: гибридный токенизатор для диффузии на стероидах.

В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.

Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.


MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).

Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.

Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:

🟢Стандартный pixel reconstruction loss;

🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);

🟢Image-text contrastive loss (как в CLIP).

Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.

🟡Теоретические выкладки подтвердились на практике.

Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.

🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1.

Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.

🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:

🟠VTP-Large - 0.7B;
🟠VTP-Base - 0.3B;
🟠VTP-Small - 0.2B.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #Tokenizer #Minimax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
28👍14🔥10🦄1