Machine learning Interview

🔥 Разбор того, как Mixture-of-Experts (MoE) LLM можно сделать реально дешёвыми, если подогнать архитектуру под железо.

В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.

Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.

Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.

Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.

Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.

Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.

Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.

Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.

https://www.tensoreconomics.com/p/moe-inference-economics-from-first

❤8🔥4👍2

3.13K views11:01

Machine learning Interview

МТС приглашает всех, кто пишет на С++, Go, Python, JS, Java, C# и других языках, на True Tech Champ — всероссийский чемпионат по программированию. Соревнование будет проходить в двух треках.

Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]

Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.

Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]

Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.

🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.

📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.

Стоит участвовать, чтобы:
— Освежить знания и прокачать новые навыки.
— Заявить о себе на всю страну, получить карьерный буст и шанс лично пообщаться с HR-специалистами МТС.

⏰ Регистрация участников до 20 октября на сайте.

👍4

2.89K views14:04

Machine learning Interview

📢 Калифорния первой в США выпустила закон, обязывающий ИИ признавать, что они не люди

Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.

Основные положения:

▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.

Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.

Этот протокол должен быть опубликован на сайте.

При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.

Запрещено выдавать себя за врача или иного специалиста в области здоровья.

Для подростков должен быть фильтр от сексуального контента.

С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.

Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.

В тот же день подписаны сопутствующие меры:

Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.

Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.

Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.

techcrunch

#ai #news

👍16🤣11❤5🥰3

3.11K views16:02

Machine learning Interview

Жиза

@machinelearning_interview

👍10❤9😁6🤣2🥰1💯1💊1

2.76K viewsedited 13:57

Machine learning Interview

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Amurex — это ваш простой, но мощный помощник на основе искусственного интеллекта для проведения совещаний, который легко интегрируется в ваш рабочий процесс!

🌟 Созданный на основе передового искусственного интеллекта, Amurex гарантирует, что вы никогда не упустите ни одной детали, всегда будете в курсе всех дел и сделаете каждое совещание более продуктивным.

🌟 Благодаря таким функциям, как предложения в режиме реального времени, интеллектуальные сводки и последующие электронные письма, Amurex выступает в роли вашего личного второго пилота на всех встречах, экономя время и повышая эффективность.

🔐 Лицензия: AGPL-3.0

🖥

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🤔3😁1

2.67K views14:40

Machine learning Interview

Forwarded from Machinelearning

⚡️ Omni-Embed-Nemotron - новая единая модель от NVIDIA для поиска по тексту, изображениям, аудио и видео

Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление.

- Поддержка всех типов данных: текст, изображение, аудио, видео.
- Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста).
- Контекст - до 32 768 токенов, размер embedding — 2048.
- Оптимизирована под GPU, поддерживает FlashAttention 2.

Это делает её идеальной для:
- кросс-модального поиска (поиск текста по видео или изображению);
- улучшения RAG-проектов;
- систем мультимодального понимания контента.

Просто, быстро и эффективно - всё в одном открытом решении.

🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b

@ai_machinelearning_big_data

#crossmodal #retrieval #openAI #NVIDIA #OmniEmbed #multimodal #AIModels #OpenSource #Search #UnifiedEmbedding

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍4🔥3🥰2

1.89K views10:15

Machine learning Interview

🧬 Google Research представила DeepSomatic — новый инструмент ИИ для анализа опухолевых геномов.

Модель использует сверточные нейросети (CNN), чтобы находить соматические мутации — те самые изменения в ДНК, которые могут запускать рост раковых клеток.
DeepSomatic превращает данные секвенирования ДНК в визуальные «карты» и обучается различать реальные мутации, наследственные варианты и шум от ошибок секвенирования.

📊 Обученная на огромном датасете CASTLE, модель показала:
- более высокую точность, чем существующие инструменты (MuTect2, Strelka2, SomaticSniper);
- способность работать даже без контрольного образца «здоровой ткани» (режим *tumor-only*);
- устойчивость к разным видам рака и технологиям секвенирования.

💡 DeepSomatic — шаг к ИИ-управляемой прецизионной медицине.
В будущем такие системы смогут анализировать геном опухоли за часы вместо дней, помогая врачам быстрее подбирать оптимальное лечение и открывать новые терапевтические мишени.

🔗 Подробнее в блоге Google Research: https://research.google/blog/using-ai-to-identify-genetic-variants-in-tumors-with-deepsomatic/

❤16👍4🔥2

2.45K views12:02

Machine learning Interview

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Андрей Карпати о «ИИ-агентах»:

> «Честно говоря, модели пока не дотягивают.
> Мне кажется, индустрия делает слишком большой скачок и пытается выдать это за нечто невероятное.
> Но это — просто *каша* (slop)!
> Они не хотят с этим смириться. Возможно, дело в попытке привлечь инвестиции или в каком-то маркетинговом хайпе — я не уверен, что происходит.»

Карпати критикует нынешнюю гонку вокруг AI-агентов, считая, что технологии ещё не готовы для реальных задач, а компании слишком рано продают идею «умных агентов», завышая ожидания рынка.

👍33😁5❤4🔥2🥰2

2.75K views09:15

Machine learning Interview

Оксфордские учёные подтвердили худшие опасения: Интернет умирает

Исследователи из Оксфорда выяснили: интернет больше не тот, что раньше:
- В 2020 году ИИ создавал всего 5% контента,
- В 2025 - уже 48%, а к следующему году прогнозируют более 90%.

ИИ-текст стоит очень дешево, человеческий труд - от $10 до $100 за статью.

Рынок выбрал скорость и дешевизну.

Но настоящая проблема -**«model collapse»**:
когда нейросети обучаются на тексте, созданном другими нейросетями.

Это как ксерить ксерокопию - каждое поколение теряет детали и оригинальные идеи.

Мир превращается в поток однообразного, усреднённого контента.

ИИ сегодня создаёт “цифровую кашу”, а завтра будет учиться уже на ней. И каждый новый виток делает интернет чуть глупее.

#AI #Oxford #ModelCollapse #Internet #AIGeneratedContent #LLM #AIEthics #DigitalDecay

😢50😁5👍4🫡4❤2

2.6K views12:03

Machine learning Interview

0:00

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Одна из самых наглядных визуализаций механизма внимания - темы, которую многим разработчикам долго было трудно по-настоящему понять.

На первый взгляд формула кажется простой -
её легко выучить и даже воспроизвести по памяти.

Но разобраться интуитивно, как взаимодействуют Q (Query), K (Key) и V (Value), - совсем другое дело. Именно это видео или схема помогает «увидеть», что происходит внутри трансформера.

#machinelearning #deeplearning #transformers #attention #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12👍8❤6

1.46K views09:51

About

Blog

Apps

Platform