330K subscribers
4.17K photos
768 videos
17 files
4.69K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
56🔥28👍15🤔3🗿3😁1