Machine learning Interview
33.5K subscribers
1.44K photos
110 videos
13 files
992 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Как большие языковые модели могут избежать катастрофического забывания во время файнтюнига?

Ответы пишите в комменариях👇

🤔 Проблема
Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания.

Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки.

Подходы на практике:

1️⃣ LoRA / параметро-эффективное дообучение:
- Обновляются не все веса, а только адаптеры.
- Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения.
2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание)
- К кастомному датасету подмешивают данные из предобучения.
- Обычно берут в 2–3 раза больше примеров из базового корпуса.
- Так сохраняется «фон» общих знаний модели.
3️⃣ Dataset mixing (смешивание датасетов)
- Не дают модели «зарыться» в узкий домен.
- Сочетание специализированных и базовых данных удерживает баланс.
4️⃣ Variation across epochs (вариативность между эпохами)
- На каждой эпохе берут новые сэмплы из предобученного корпуса.
- Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству.

📌 Как ответить на собеседовании
«Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых».

@machinelearning_interview

#AI #LLM #MachineLearning #Forgetting #FineTuning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥73😘3💯1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Одна из самых наглядных визуализаций механизма внимания - темы, которую многим разработчикам долго было трудно по-настоящему понять.

На первый взгляд формула кажется простой -
её легко выучить и даже воспроизвести по памяти.

Но разобраться интуитивно, как взаимодействуют Q (Query), K (Key) и V (Value), - совсем другое дело. Именно это видео или схема помогает «увидеть», что происходит внутри трансформера.

#machinelearning #deeplearning #transformers #attention #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍118
Forwarded from Machinelearning
🖥 NVIDIA представила новое открытое семейство моделей Nemotron 3

✔️ Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.

Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений

Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска

Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач

Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.

✔️ Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.

Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.

Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.

NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.

Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.

🟡Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/
🟡Guide: https://docs.unsloth.ai/models/nemotron-3
🟡GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF
🟡lmstudio: https://lmstudio.ai/models/nemotron-3

@ai_machinelearning_big_data


#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95👍4