🔥 Разбор того, как Mixture-of-Experts (MoE) LLM можно сделать реально дешёвыми, если подогнать архитектуру под железо.
В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.
Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.
Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.
Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.
Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.
Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.
Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.
Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.
https://www.tensoreconomics.com/p/moe-inference-economics-from-first
В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.
Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.
Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.
Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.
Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.
Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.
Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.
Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.
https://www.tensoreconomics.com/p/moe-inference-economics-from-first
❤7🔥4👍1
МТС приглашает всех, кто пишет на С++, Go, Python, JS, Java, C# и других языках, на True Tech Champ — всероссийский чемпионат по программированию. Соревнование будет проходить в двух треках.
Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]
Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.
Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]
Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.
🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.
Стоит участвовать, чтобы:
— Освежить знания и прокачать новые навыки.
— Заявить о себе на всю страну, получить карьерный буст и шанс лично пообщаться с HR-специалистами МТС.
⏰ Регистрация участников до 20 октября на сайте.
Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]
Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.
Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]
Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.
🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.
Стоит участвовать, чтобы:
— Освежить знания и прокачать новые навыки.
— Заявить о себе на всю страну, получить карьерный буст и шанс лично пообщаться с HR-специалистами МТС.
⏰ Регистрация участников до 20 октября на сайте.
👍3
📢 Калифорния первой в США выпустила закон, обязывающий ИИ признавать, что они не люди
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
🤣10👍9❤4🥰2