🔥 Разбор того, как Mixture-of-Experts (MoE) LLM можно сделать реально дешёвыми, если подогнать архитектуру под железо.
В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.
Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.
Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.
Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.
Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.
Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.
Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.
Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.
https://www.tensoreconomics.com/p/moe-inference-economics-from-first
В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.
Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.
Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.
Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.
Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.
Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.
Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.
Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.
https://www.tensoreconomics.com/p/moe-inference-economics-from-first
❤8🔥4👍2
МТС приглашает всех, кто пишет на С++, Go, Python, JS, Java, C# и других языках, на True Tech Champ — всероссийский чемпионат по программированию. Соревнование будет проходить в двух треках.
Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]
Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.
Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]
Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.
🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.
Стоит участвовать, чтобы:
— Освежить знания и прокачать новые навыки.
— Заявить о себе на всю страну, получить карьерный буст и шанс лично пообщаться с HR-специалистами МТС.
⏰ Регистрация участников до 20 октября на сайте.
Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]
Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.
Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]
Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.
🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.
Стоит участвовать, чтобы:
— Освежить знания и прокачать новые навыки.
— Заявить о себе на всю страну, получить карьерный буст и шанс лично пообщаться с HR-специалистами МТС.
⏰ Регистрация участников до 20 октября на сайте.
👍4
📢 Калифорния первой в США выпустила закон, обязывающий ИИ признавать, что они не люди
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
👍16🤣11❤5🥰3
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🤔3😁1
Forwarded from Machinelearning
Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление.
- Поддержка всех типов данных: текст, изображение, аудио, видео.
- Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста).
- Контекст - до 32 768 токенов, размер embedding — 2048.
- Оптимизирована под GPU, поддерживает FlashAttention 2.
Это делает её идеальной для:
- кросс-модального поиска (поиск текста по видео или изображению);
- улучшения RAG-проектов;
- систем мультимодального понимания контента.
Просто, быстро и эффективно - всё в одном открытом решении.
🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b
@ai_machinelearning_big_data
#crossmodal #retrieval #openAI #NVIDIA #OmniEmbed #multimodal #AIModels #OpenSource #Search #UnifiedEmbedding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥3🥰2
🧬 Google Research представила DeepSomatic — новый инструмент ИИ для анализа опухолевых геномов.
Модель использует сверточные нейросети (CNN), чтобы находить соматические мутации — те самые изменения в ДНК, которые могут запускать рост раковых клеток.
DeepSomatic превращает данные секвенирования ДНК в визуальные «карты» и обучается различать реальные мутации, наследственные варианты и шум от ошибок секвенирования.
📊 Обученная на огромном датасете CASTLE, модель показала:
- более высокую точность, чем существующие инструменты (MuTect2, Strelka2, SomaticSniper);
- способность работать даже без контрольного образца «здоровой ткани» (режим *tumor-only*);
- устойчивость к разным видам рака и технологиям секвенирования.
💡 DeepSomatic — шаг к ИИ-управляемой прецизионной медицине.
В будущем такие системы смогут анализировать геном опухоли за часы вместо дней, помогая врачам быстрее подбирать оптимальное лечение и открывать новые терапевтические мишени.
🔗 Подробнее в блоге Google Research: https://research.google/blog/using-ai-to-identify-genetic-variants-in-tumors-with-deepsomatic/
Модель использует сверточные нейросети (CNN), чтобы находить соматические мутации — те самые изменения в ДНК, которые могут запускать рост раковых клеток.
DeepSomatic превращает данные секвенирования ДНК в визуальные «карты» и обучается различать реальные мутации, наследственные варианты и шум от ошибок секвенирования.
📊 Обученная на огромном датасете CASTLE, модель показала:
- более высокую точность, чем существующие инструменты (MuTect2, Strelka2, SomaticSniper);
- способность работать даже без контрольного образца «здоровой ткани» (режим *tumor-only*);
- устойчивость к разным видам рака и технологиям секвенирования.
💡 DeepSomatic — шаг к ИИ-управляемой прецизионной медицине.
В будущем такие системы смогут анализировать геном опухоли за часы вместо дней, помогая врачам быстрее подбирать оптимальное лечение и открывать новые терапевтические мишени.
🔗 Подробнее в блоге Google Research: https://research.google/blog/using-ai-to-identify-genetic-variants-in-tumors-with-deepsomatic/
❤16👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Андрей Карпати о «ИИ-агентах»:
> «Честно говоря, модели пока не дотягивают.
> Мне кажется, индустрия делает слишком большой скачок и пытается выдать это за нечто невероятное.
> Но это — просто *каша* (slop)!
> Они не хотят с этим смириться. Возможно, дело в попытке привлечь инвестиции или в каком-то маркетинговом хайпе — я не уверен, что происходит.»
Карпати критикует нынешнюю гонку вокруг AI-агентов, считая, что технологии ещё не готовы для реальных задач, а компании слишком рано продают идею «умных агентов», завышая ожидания рынка.
> «Честно говоря, модели пока не дотягивают.
> Мне кажется, индустрия делает слишком большой скачок и пытается выдать это за нечто невероятное.
> Но это — просто *каша* (slop)!
> Они не хотят с этим смириться. Возможно, дело в попытке привлечь инвестиции или в каком-то маркетинговом хайпе — я не уверен, что происходит.»
Карпати критикует нынешнюю гонку вокруг AI-агентов, считая, что технологии ещё не готовы для реальных задач, а компании слишком рано продают идею «умных агентов», завышая ожидания рынка.
👍33😁5❤4🔥2🥰2
Оксфордские учёные подтвердили худшие опасения: Интернет умирает
Исследователи из Оксфорда выяснили: интернет больше не тот, что раньше:
- В 2020 году ИИ создавал всего 5% контента,
- В 2025 - уже 48%, а к следующему году прогнозируют более 90%.
ИИ-текст стоит очень дешево, человеческий труд - от $10 до $100 за статью.
Рынок выбрал скорость и дешевизну.
Но настоящая проблема -**«model collapse»**:
когда нейросети обучаются на тексте, созданном другими нейросетями.
Это как ксерить ксерокопию - каждое поколение теряет детали и оригинальные идеи.
Мир превращается в поток однообразного, усреднённого контента.
ИИ сегодня создаёт “цифровую кашу”, а завтра будет учиться уже на ней. И каждый новый виток делает интернет чуть глупее.
#AI #Oxford #ModelCollapse #Internet #AIGeneratedContent #LLM #AIEthics #DigitalDecay
Исследователи из Оксфорда выяснили: интернет больше не тот, что раньше:
- В 2020 году ИИ создавал всего 5% контента,
- В 2025 - уже 48%, а к следующему году прогнозируют более 90%.
ИИ-текст стоит очень дешево, человеческий труд - от $10 до $100 за статью.
Рынок выбрал скорость и дешевизну.
Но настоящая проблема -**«model collapse»**:
когда нейросети обучаются на тексте, созданном другими нейросетями.
Это как ксерить ксерокопию - каждое поколение теряет детали и оригинальные идеи.
Мир превращается в поток однообразного, усреднённого контента.
ИИ сегодня создаёт “цифровую кашу”, а завтра будет учиться уже на ней. И каждый новый виток делает интернет чуть глупее.
#AI #Oxford #ModelCollapse #Internet #AIGeneratedContent #LLM #AIEthics #DigitalDecay
😢50😁5👍4🫡4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
На первый взгляд формула кажется простой -
её легко выучить и даже воспроизвести по памяти.
Но разобраться интуитивно, как взаимодействуют Q (Query), K (Key) и V (Value), - совсем другое дело. Именно это видео или схема помогает «увидеть», что происходит внутри трансформера.
#machinelearning #deeplearning #transformers #attention #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍8❤6