Machine learning Interview
35.3K subscribers
1.32K photos
97 videos
13 files
885 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Как большие языковые модели могут избежать катастрофического забывания во время файнтюнига?

Ответы пишите в комменариях👇

🤔 Проблема
Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания.

Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки.

Подходы на практике:

1️⃣ LoRA / параметро-эффективное дообучение:
- Обновляются не все веса, а только адаптеры.
- Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения.
2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание)
- К кастомному датасету подмешивают данные из предобучения.
- Обычно берут в 2–3 раза больше примеров из базового корпуса.
- Так сохраняется «фон» общих знаний модели.
3️⃣ Dataset mixing (смешивание датасетов)
- Не дают модели «зарыться» в узкий домен.
- Сочетание специализированных и базовых данных удерживает баланс.
4️⃣ Variation across epochs (вариативность между эпохами)
- На каждой эпохе берут новые сэмплы из предобученного корпуса.
- Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству.

📌 Как ответить на собеседовании
«Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых».

@machinelearning_interview

#AI #LLM #MachineLearning #Forgetting #FineTuning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥63😘3💯1
Forwarded from Machinelearning
🐳 А вот и обновленная DeepSeek-V3.1-Terminus

Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.

Доступна в приложении и в веб-версии и через API.

🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

@ai_machinelearning_big_data


#DeepSeek #opensource #llm
8🔥4🥰4
Forwarded from Machinelearning
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия

Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- 💰 API подешевел более чем на 50%

📊 V3.1 пока ещё будет доступна до 15 октября 2025.

🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

@ai_machinelearning_big_data


#DeepSeek #AI #V32 #SparseAttention #LLM
2👍2🤔2