330K subscribers
4.16K photos
768 videos
17 files
4.69K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.

Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры.

Секрет в архитектуре:
🔹 сочетание Transformer attention и Mamba state-space слоёв.
🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей,
🔹 а Transformer-слои сохраняют способность к сложным рассуждениям.

Результат, модель кушает меньше памяти, выдает высокую скорость и плавно работает даже на ноутбуках, GPU и мобильных устройствах.

📏 Контекст: до 256K токенов.
Скорость: около 40 токенов/сек даже на длинных контекстах, тогда как другие модели резко замедляются.

На графике “интеллект против скорости” Jamba 3B опережает Gemma 3 4B, Llama 3.2 3B и Granite 4.0 Micro, демонстрируя высший интеллект и более быструю генерацию.

🟢Подробнее: huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

@ai_machinelearning_big_data


#AI #LLM #Jamba3B #AI21 #Mamba #Transformer #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
42🔥21👍12🤔4💘2