Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Что измеряет Gini impurity в узле дерева?
Anonymous Quiz
3%
Среднее значение признаков
37%
Вероятность неправильной классификации, если класс выбирается случайно
58%
Энтропию распределения
2%
Количество листьев в дереве
👍4❤1
Зачем добавляют skip connections в глубокие нейросети?
Anonymous Quiz
7%
Чтобы уменьшить количество параметров
5%
Чтобы сделать сеть более линейной
85%
Чтобы облегчить обратное распространение градиента и ускорить обучение
3%
Чтобы сократить использование ReLU
❤2
Как обычно определяется сходимость алгоритма K-Means?
Anonymous Quiz
16%
Когда все точки остаются в тех же кластерах две итерации подряд
81%
Когда изменение положения центроидов становится меньше заданного порога
1%
Когда количество итераций превышает 10
2%
Когда все кластеры содержат одинаковое количество точек
👍3
Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?
Anonymous Quiz
28%
Потому что он требует равного количества примеров для всех классов
52%
Потому что ROC определён только для бинарной классификации
4%
Потому что AUC не работает с вероятностями
16%
Потому что ROC не может быть усреднён
❤2
Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️
Anonymous Quiz
10%
Когда важно уменьшить вычислительные затраты
79%
Когда нужно позволить дереву сначала выучить все закономерности, а потом удалить лишние ветви
6%
Когда у нас мало данных
5%
Когда дерево не может переобучиться
❤1
🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%
Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎
🔥 Курсы со скидкой 40% до конца ноября:
🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры
Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈
Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎
🔥 Курсы со скидкой 40% до конца ноября:
🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры
Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈
Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?
Anonymous Quiz
8%
Потому что данные могут быть не IID (независимыми и одинаково распределёнными)
90%
Потому что нарушается временной порядок и происходит утечка данных из будущего
1%
Потому что k слишком маленькое
1%
Потому что нельзя использовать метрику AUC
👍1
Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?
Anonymous Quiz
12%
Недостаток данных
49%
Сильная зависимость модели от случайных разбиений данных
31%
Модель сильно переобучена на один из фолдов
8%
Модель недообучена
👍2❤1
Почему комбинация методов калибровки (например, Temperature Scaling + Isotonic Regression) может ухудшить итоговую калибровку?
Anonymous Quiz
5%
Потому что методы несовместимы по математике
44%
Потому что вторая калибровка заново масштабирует логиты
33%
Потому что каждая трансформация может переобучиться на ограниченной валидационной выборке
17%
Потому что избыточная гладкость ухудшает дискретизацию вероятностей
📊 Задача с собеседования
Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику.
🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy:
— работа с векторами и матрицами;
— линейная регрессия и метод наименьших квадратов;
— вероятности, распределения, статистика;
— и многое другое.
⏳ Старт: 4 декабря
🔥 Скидка: 40% до конца ноября
👉 Подключиться к курсу
Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости между количеством заключённых сделок и объёмом выручки, а также построить прогноз выручки при достижении 150 сделок.
Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику.
🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy:
— работа с векторами и матрицами;
— линейная регрессия и метод наименьших квадратов;
— вероятности, распределения, статистика;
— и многое другое.
⏳ Старт: 4 декабря
🔥 Скидка: 40% до конца ноября
👉 Подключиться к курсу
Почему добавление слишком большого momentum-параметра β в стохастическом градиенте может ухудшить обучение при очень шумных данных?
Anonymous Quiz
65%
Потому что накопленные скорости усиливают шум в направлении обновлений
11%
Потому что momentum уменьшает размер шага
16%
Потому что β влияет на регуляризацию
9%
Потому что градиенты перестают зависеть от потерь
❤1
Почему средняя AUC по схемам One-vs-One может быть выше, чем One-vs-Rest, даже при тех же данных?
Anonymous Quiz
11%
One-vs-One использует меньше данных
43%
One-vs-One игнорирует редкие классы, что делает задачу легче
4%
One-vs-One всегда лучше по теории
42%
One-vs-Rest вычисляет AUC только по одному классу
Почему дрейф данных может улучшить общую метрику, но ухудшить fairness?
Anonymous Quiz
6%
Fairness всегда ухудшается
2%
Новые данные всегда проще
89%
Улучшение для majority класса может “перекрыть” ухудшение для minority класса
2%
Общая метрика и fairness — одно и то же
Почему избыточный pre-pruning может ухудшить способность дерева разделять данные на важных малых подгруппах?
Anonymous Quiz
2%
Дерево перестаёт быть бинарным
12%
Pre-pruning уменьшает impurity
82%
Pre-pruning отбрасывает потенциально полезные поздние разветвления
4%
Pre-pruning увеличивает количество листьев
❤1
Почему boosting может ухудшать устойчивость к шумным меткам?
Anonymous Quiz
5%
Boosting использует L1-регуляризацию
26%
Boosting всегда уменьшает bias
61%
Boosting усиливает вес самых трудных примеров, включая ошибочные
9%
Boosting не использует стохастичность
❤1
Почему две модели с одинаковой AUC могут иметь радикально разное качество при фиксированном пороге?
Anonymous Quiz
34%
AUC учитывает только плотность ошибок, но не их порядок
2%
AUC интегрирует производные
16%
AUC игнорирует низкие FPR
48%
AUC не учитывает форму распределения предсказаний
❤4
Почему применение стандартного PCA напрямую к временным рядам может потерять критическую информацию?
Anonymous Quiz
64%
PCA игнорирует автокорреляцию и порядок во времени
12%
PCA всегда уменьшает дисперсию
5%
PCA требует больше данных, чем временных точек
20%
PCA ломает стационарность ряда
👍2❤1
Почему полностью удалять признаки с большим количеством пропусков не всегда лучший выбор?
Anonymous Quiz
2%
Пропуски всегда случайны
94%
Пропуски могут содержать скрытый сигнал, отражающий поведение системы
3%
Импутация всегда хуже удаления
1%
Алгоритмы не умеют работать с NaN
👍2❤1
Почему embeddings дают преимущество над one-hot представлениями при больших словарях?
Anonymous Quiz
91%
Embeddings компактны и отражают семантическую близость между токенами
0%
Embeddings не требуют обучения
3%
One-hot быстрее в вычислении градиентов
5%
One-hot всегда лучше для небольших наборов данных
❤1👍1