Библиотека собеса по Data Science | вопросы с собеседований

Расскажите про систематическую ошибку отбора (Selection bias)

В общем, систематическая ошибка отбора говорит о том, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными из-за неправильного отбора в эту группу. В контексте машинного обучения о selection bias можно говорить, когда данные, используемые для обучения модели, не являются репрезентативными по отношению к целевой популяции, для которой предназначена модель. Это может привести к тому, что модель будет хорошо работать на тренировочных данных, но показывать плохие результаты на новых данных.

Систематическая ошибка отбора может возникать по разным причинам:
▫️Если тренировочный датасет собирается из источников, которые не охватывают всё многообразие генеральной совокупности, то данные могут быть смещены в сторону определённых значений или классов.
▫️Если в обучающем наборе отсутствуют данные по определённым категориям, то модель может совершать ошибки.

#статистика

❤2

1.26K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Какие нелинейные преобразования данных вы знаете?

Нелинейные преобразования меняют структуру распределения. Это помогает улучшить модели, делая их способными улавливать сложные зависимости в данных.

Вот некоторые из наиболее распространённых нелинейных преобразований:
▪️Логарифмическое преобразование.
Оно позволяет увеличить расстояние между небольшими значениями и уменьшить между большими значениями. Преобразование делает скошенное распределение более симметричным и приближённым к нормальному.
▪️Преобразование с помощью квадратного корня.
Действует аналогично логарифмическому, однако менее агрессивно. Его без изменений можно применять к нулевым значениям.
▪️Преобразование Бокса-Кокса.
Обычно используется для трансформации зависимой переменной в случае, если у нас есть ненормальное распределение ошибок и/или нелинейность взаимосвязи, а также в случае гетероскедастичности.
▪️Преобразование Йео-Джонсона.
Позволяет работать с нулевыми и отрицательными значениями.

#машинное_обучение
#статистика

❤9

1.26K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Как сгенерировать распределение на основе выборочных данных?

Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.

Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.

#статистика

❤5👍2

1.09K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Объясните, как интерпретировать диаграмму размаха, или ящик с усами

Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.

В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.

Квартили делят упорядоченное множество данных на четыре равные части.

Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.

Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).

#статистика

👍11

1.37K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Что происходит со средним, модой и медианой, когда распределение данных скошенное?

Распределение скошено вправо, если оно имеет «хвост» в правой части распределения. И напротив, распределение скошено влево, если оно имеет «хвост» в левой части. Это также называют правосторонней и левосторонней симметриями, соответственно.

Когда наблюдается правосторонняя асимметрия, среднее значение больше медианы, а она, в свою очередь, больше моды. В случае левосторонней асимметрии ситуация полностью противоположная: мода больше медианы, а медиана больше среднего значения.

#статистика

👍4

1.3K views15:00

About

Blog

Apps

Platform