Расскажите про систематическую ошибку отбора (Selection bias)
В общем, систематическая ошибка отбора говорит о том, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными из-за неправильного отбора в эту группу. В контексте машинного обучения о selection bias можно говорить, когда данные, используемые для обучения модели, не являются репрезентативными по отношению к целевой популяции, для которой предназначена модель. Это может привести к тому, что модель будет хорошо работать на тренировочных данных, но показывать плохие результаты на новых данных.
Систематическая ошибка отбора может возникать по разным причинам:
▫️Если тренировочный датасет собирается из источников, которые не охватывают всё многообразие генеральной совокупности, то данные могут быть смещены в сторону определённых значений или классов.
▫️Если в обучающем наборе отсутствуют данные по определённым категориям, то модель может совершать ошибки.
#статистика
В общем, систематическая ошибка отбора говорит о том, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными из-за неправильного отбора в эту группу. В контексте машинного обучения о selection bias можно говорить, когда данные, используемые для обучения модели, не являются репрезентативными по отношению к целевой популяции, для которой предназначена модель. Это может привести к тому, что модель будет хорошо работать на тренировочных данных, но показывать плохие результаты на новых данных.
Систематическая ошибка отбора может возникать по разным причинам:
▫️Если тренировочный датасет собирается из источников, которые не охватывают всё многообразие генеральной совокупности, то данные могут быть смещены в сторону определённых значений или классов.
▫️Если в обучающем наборе отсутствуют данные по определённым категориям, то модель может совершать ошибки.
#статистика
❤2
Какие нелинейные преобразования данных вы знаете?
Нелинейные преобразования меняют структуру распределения. Это помогает улучшить модели, делая их способными улавливать сложные зависимости в данных.
Вот некоторые из наиболее распространённых нелинейных преобразований:
▪️Логарифмическое преобразование.
Оно позволяет увеличить расстояние между небольшими значениями и уменьшить между большими значениями. Преобразование делает скошенное распределение более симметричным и приближённым к нормальному.
▪️Преобразование с помощью квадратного корня.
Действует аналогично логарифмическому, однако менее агрессивно. Его без изменений можно применять к нулевым значениям.
▪️Преобразование Бокса-Кокса.
Обычно используется для трансформации зависимой переменной в случае, если у нас есть ненормальное распределение ошибок и/или нелинейность взаимосвязи, а также в случае гетероскедастичности.
▪️Преобразование Йео-Джонсона.
Позволяет работать с нулевыми и отрицательными значениями.
#машинное_обучение
#статистика
Нелинейные преобразования меняют структуру распределения. Это помогает улучшить модели, делая их способными улавливать сложные зависимости в данных.
Вот некоторые из наиболее распространённых нелинейных преобразований:
▪️Логарифмическое преобразование.
Оно позволяет увеличить расстояние между небольшими значениями и уменьшить между большими значениями. Преобразование делает скошенное распределение более симметричным и приближённым к нормальному.
▪️Преобразование с помощью квадратного корня.
Действует аналогично логарифмическому, однако менее агрессивно. Его без изменений можно применять к нулевым значениям.
▪️Преобразование Бокса-Кокса.
Обычно используется для трансформации зависимой переменной в случае, если у нас есть ненормальное распределение ошибок и/или нелинейность взаимосвязи, а также в случае гетероскедастичности.
▪️Преобразование Йео-Джонсона.
Позволяет работать с нулевыми и отрицательными значениями.
#машинное_обучение
#статистика
❤9
Как сгенерировать распределение на основе выборочных данных?
Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.
Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.
#статистика
Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.
Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.
#статистика
❤5👍2
Объясните, как интерпретировать диаграмму размаха, или ящик с усами
Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.
В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.
Квартили делят упорядоченное множество данных на четыре равные части.
Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.
Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).
#статистика
Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.
В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.
Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.
Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).
#статистика
👍11