Библиотека собеса по Data Science | вопросы с собеседований

↪️

Существуют ли методы построения доверительного интервала для точности без предположений о распределении

Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:

Непараметрический бутстреп:
➡️ Многократно выбираем выборки из тестового набора с возвращением.
➡️ Для каждой выборки вычисляем точность.
➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

704 views19:31

Библиотека собеса по Data Science | вопросы с собеседований

🔥

Когда стоит использовать pruning (обрезку дерева) вместо early stopping

Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).

🔤

Post-pruning:
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.

🔤

Pre-pruning:
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

821 views18:59

Библиотека собеса по Data Science | вопросы с собеседований

Что измеряет Gini impurity в узле дерева?

Anonymous Quiz

Среднее значение признаков

38%

Вероятность неправильной классификации, если класс выбирается случайно

57%

Энтропию распределения

Количество листьев в дереве

👍4❤1

179 voters816 views18:16

Библиотека собеса по Data Science | вопросы с собеседований

Зачем добавляют skip connections в глубокие нейросети?

Anonymous Quiz

Чтобы уменьшить количество параметров

Чтобы сделать сеть более линейной

85%

Чтобы облегчить обратное распространение градиента и ускорить обучение

Чтобы сократить использование ReLU

❤2

192 voters813 views19:04

Библиотека собеса по Data Science | вопросы с собеседований

Как обычно определяется сходимость алгоритма K-Means?

Anonymous Quiz

15%

Когда все точки остаются в тех же кластерах две итерации подряд

82%

Когда изменение положения центроидов становится меньше заданного порога

Когда количество итераций превышает 10

Когда все кластеры содержат одинаковое количество точек

👍3

182 voters773 views19:46

Библиотека собеса по Data Science | вопросы с собеседований

Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?

Anonymous Quiz

27%

Потому что он требует равного количества примеров для всех классов

53%

Потому что ROC определён только для бинарной классификации

Потому что AUC не работает с вероятностями

15%

Потому что ROC не может быть усреднён

❤2

214 voters726 views08:19

Библиотека собеса по Data Science | вопросы с собеседований

Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️

Anonymous Quiz

11%

Когда важно уменьшить вычислительные затраты

77%

Когда нужно позволить дереву сначала выучить все закономерности, а потом удалить лишние ветви

Когда у нас мало данных

Когда дерево не может переобучиться

❤1

121 voters655 views10:46

Библиотека собеса по Data Science | вопросы с собеседований

🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%

Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎

🔥 Курсы со скидкой 40% до конца ноября:

🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры

Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈

628 views15:25

Библиотека собеса по Data Science | вопросы с собеседований

Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?

Anonymous Quiz

Потому что данные могут быть не IID (независимыми и одинаково распределёнными)

90%

Потому что нарушается временной порядок и происходит утечка данных из будущего

Потому что k слишком маленькое

Потому что нельзя использовать метрику AUC

👍1

160 voters620 views16:38

Библиотека собеса по Data Science | вопросы с собеседований

Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?

Anonymous Quiz

12%

Недостаток данных

49%

Сильная зависимость модели от случайных разбиений данных

31%

Модель сильно переобучена на один из фолдов

Модель недообучена

👍2❤1

503 voters2.01K views18:59

Библиотека собеса по Data Science | вопросы с собеседований

Почему комбинация методов калибровки (например, Temperature Scaling + Isotonic Regression) может ухудшить итоговую калибровку?

Anonymous Quiz

Потому что методы несовместимы по математике

47%

Потому что вторая калибровка заново масштабирует логиты

29%

Потому что каждая трансформация может переобучиться на ограниченной валидационной выборке

18%

Потому что избыточная гладкость ухудшает дискретизацию вероятностей

106 voters535 views19:05

Библиотека собеса по Data Science | вопросы с собеседований

📊 Задача с собеседования

Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости между количеством заключённых сделок и объёмом выручки, а также построить прогноз выручки при достижении 150 сделок.

Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику.

🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy:

— работа с векторами и матрицами;
— линейная регрессия и метод наименьших квадратов;
— вероятности, распределения, статистика;
— и многое другое.

⏳ Старт: 4 декабря
🔥 Скидка: 40% до конца ноября

👉 Подключиться к курсу

577 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Почему добавление слишком большого momentum-параметра β в стохастическом градиенте может ухудшить обучение при очень шумных данных?

Anonymous Quiz

65%

Потому что накопленные скорости усиливают шум в направлении обновлений

10%

Потому что momentum уменьшает размер шага

16%

Потому что β влияет на регуляризацию

Потому что градиенты перестают зависеть от потерь

❤1