Как сгенерировать распределение на основе выборочных данных?
Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.
Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.
#статистика
Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.
Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.
#статистика
❤5👍2
Объясните, как интерпретировать диаграмму размаха, или ящик с усами
Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.
В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.
Квартили делят упорядоченное множество данных на четыре равные части.
Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.
Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).
#статистика
Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.
В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.
Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.
Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).
#статистика
👍11
Что происходит со средним, модой и медианой, когда распределение данных скошенное?
Распределение скошено вправо, если оно имеет «хвост» в правой части распределения. И напротив, распределение скошено влево, если оно имеет «хвост» в левой части. Это также называют правосторонней и левосторонней симметриями, соответственно.
Когда наблюдается правосторонняя асимметрия, среднее значение больше медианы, а она, в свою очередь, больше моды. В случае левосторонней асимметрии ситуация полностью противоположная: мода больше медианы, а медиана больше среднего значения.
#статистика
Распределение скошено вправо, если оно имеет «хвост» в правой части распределения. И напротив, распределение скошено влево, если оно имеет «хвост» в левой части. Это также называют правосторонней и левосторонней симметриями, соответственно.
Когда наблюдается правосторонняя асимметрия, среднее значение больше медианы, а она, в свою очередь, больше моды. В случае левосторонней асимметрии ситуация полностью противоположная: мода больше медианы, а медиана больше среднего значения.
#статистика
👍4
Что вы знаете про биномиальное распределение? Зачем оно нужно в Data Science?
Биномиальное распределение в основном моделирует количество успешных исходов в фиксированном числе испытаний. В целом, позволяет характеризовать испытания с помощью двух параметров n и p, представляющих количество испытаний и вероятность успеха в одном испытании соответственно.
На практике биномиальное распределение можно использовать для определения вероятности определённого числа успехов, таких как продажи, за определённый период для нового продукта. Кроме того, биномиальное распределение помогает понять вероятностное распределение числа клиентов, обслуживаемых в течение временного интервала.
#статистика
Биномиальное распределение в основном моделирует количество успешных исходов в фиксированном числе испытаний. В целом, позволяет характеризовать испытания с помощью двух параметров n и p, представляющих количество испытаний и вероятность успеха в одном испытании соответственно.
На практике биномиальное распределение можно использовать для определения вероятности определённого числа успехов, таких как продажи, за определённый период для нового продукта. Кроме того, биномиальное распределение помогает понять вероятностное распределение числа клиентов, обслуживаемых в течение временного интервала.
#статистика
🔥6❤3
У вас есть данные о продолжительности звонков в колл-центр. Как может выглядеть распределение? Как вы можете проверить свои предположения?
Для начала проведём предобработку данных. Заполнять пропуски в них мы не будем. Нулевые значения достаточно просто удалить.
Наше предположение состоит в том, что данные должны следовать логарифмически нормальному распределению. Можно использовать график квантиль-квантиль (Q-Q). Нам нужно выбрать набор интервалов для квантилей. На графике точка (x, y) будет соответствовать одному из квантилей второго распределения (координата y), нанесённому на тот же квантиль первого распределения (координата x). Таким образом, линия является кривой с параметром, обозначающим номер интервала для квантиля.
Если сравниваемые два распределения похожи, точки на графике Q — Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q — Q будут приблизительно лежать на линии, но не обязательно на линии y = x.
#статистика
Для начала проведём предобработку данных. Заполнять пропуски в них мы не будем. Нулевые значения достаточно просто удалить.
Наше предположение состоит в том, что данные должны следовать логарифмически нормальному распределению. Можно использовать график квантиль-квантиль (Q-Q). Нам нужно выбрать набор интервалов для квантилей. На графике точка (x, y) будет соответствовать одному из квантилей второго распределения (координата y), нанесённому на тот же квантиль первого распределения (координата x). Таким образом, линия является кривой с параметром, обозначающим номер интервала для квантиля.
Если сравниваемые два распределения похожи, точки на графике Q — Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q — Q будут приблизительно лежать на линии, но не обязательно на линии y = x.
#статистика
❤2
Что такое критерий Колмогорова-Смирнова?
Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️
Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.
Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.
Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.
#статистика
Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️
Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.
Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.
Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.
#статистика
❤7
Что вы знаете о теореме Чебышева?
Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего.
Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения.
#статистика
Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего.
Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения.
#статистика
👍11
Что такое z-оценка?
Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения.
Она рассчитывается по формуле, указанной на картинке, где:
x — значение, для которого рассчитывается z-оценка,
μ — среднее значение выборки или популяции,
σ — стандартное отклонение выборки или популяции.
Z-score применяется для следующего:
▪️Стандартизация данных, приведение к единому масштабу.
▪️Анализ аномалий.
▪️A/B-тестирование.
#статистика
Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения.
Она рассчитывается по формуле, указанной на картинке, где:
x — значение, для которого рассчитывается z-оценка,
μ — среднее значение выборки или популяции,
σ — стандартное отклонение выборки или популяции.
Z-score применяется для следующего:
▪️Стандартизация данных, приведение к единому масштабу.
▪️Анализ аномалий.
▪️A/B-тестирование.
#статистика
👍10🔥2
Что вы знаете об эмпирическом правиле в нормальном распределении?
Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:
▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.
#статистика
Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:
▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.
#статистика
👍10
Что такое смещение выборки в статистике и какие виды смещения выборки существуют?
Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.
Можно перечислить несколько видов смещения выборки:
▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.
▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.
▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.
▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.
▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.
#статистика
Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.
Можно перечислить несколько видов смещения выборки:
▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.
▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.
▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.
▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.
▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.
#статистика
❤5👍4
Как бы вы разбили все существующие магазины компании на две группы для проверки гипотезы?
Можно использовать различные подходы. Вот некоторые:
▪️Случайное разделение.
Рандомизация помогает снизить влияние внешних факторов.
▪️Стратификация.
Если есть известные переменные (например, географическое расположение, размер города, уровень дохода), которые могут влиять на результаты, можно сначала разделить магазины на подгруппы (страты) по этим переменным.
▪️Кластеризация.
Используя методы кластеризации (например, k-means), можно разбить магазины на группы по схожести характеристик (например, объём продаж, клиентская база).
В целом, выбор метода разделения выборки зависит от цели исследования и от самих данных.
#статистика
Можно использовать различные подходы. Вот некоторые:
▪️Случайное разделение.
Рандомизация помогает снизить влияние внешних факторов.
▪️Стратификация.
Если есть известные переменные (например, географическое расположение, размер города, уровень дохода), которые могут влиять на результаты, можно сначала разделить магазины на подгруппы (страты) по этим переменным.
▪️Кластеризация.
Используя методы кластеризации (например, k-means), можно разбить магазины на группы по схожести характеристик (например, объём продаж, клиентская база).
В целом, выбор метода разделения выборки зависит от цели исследования и от самих данных.
#статистика
👍7❤2
Какие статистические тесты можно применить для сравнения среднего двух выборок?
▪️Z-тест
Это самый очевидный выбор. Для его применения предположим, что выполнена нулевая гипотеза — обе выборки получены из одного распределения с неизвестным средним. Тогда построим статистику с распределением 𝑁(0,1), чтобы применить z-тест. Стоит отметить, что размер выборки должен быть достаточно большой.
▪️U-критерий Манна-Уитни
Пусть в выборках одинаковое количество элементов, и выборки большие. Разобьём первую на 100 групп одинакового размера. Внутри каждой группы посчитаем среднее. Мы получим 100 чисел. Сделаем то же самое для второй выборки. Получим ещё 100 чисел. Теперь применяем тест Манна-Уитни к этим двум сотням чисел, как к двум выборкам.
▪️Точный тест Фишера и критерий согласия Пирсона (критерий хи-квадрат)
Точный тест Фишера применяется только на очень маленьких выборках, так как на больших выборках он трудно вычислим. Для больших выборок применяют критерий хи-квадрат.
#статистика
▪️Z-тест
Это самый очевидный выбор. Для его применения предположим, что выполнена нулевая гипотеза — обе выборки получены из одного распределения с неизвестным средним. Тогда построим статистику с распределением 𝑁(0,1), чтобы применить z-тест. Стоит отметить, что размер выборки должен быть достаточно большой.
▪️U-критерий Манна-Уитни
Пусть в выборках одинаковое количество элементов, и выборки большие. Разобьём первую на 100 групп одинакового размера. Внутри каждой группы посчитаем среднее. Мы получим 100 чисел. Сделаем то же самое для второй выборки. Получим ещё 100 чисел. Теперь применяем тест Манна-Уитни к этим двум сотням чисел, как к двум выборкам.
▪️Точный тест Фишера и критерий согласия Пирсона (критерий хи-квадрат)
Точный тест Фишера применяется только на очень маленьких выборках, так как на больших выборках он трудно вычислим. Для больших выборок применяют критерий хи-квадрат.
#статистика
❤5👍1
Какова разница между параметром и статистикой?
▪️Параметр — это фиксированное, но неизвестное число, описывающее некоторую характеристику генеральной совокупности. Например, в качестве параметра может выступать средний вес младенца в популяции.
▪️ Статистика — это оценка некоторого параметра. Например, если мы возьмём выборку из 100 младенцев и посчитаем их средний вес, то это будет статистика , которая оценивает истинный параметр — средний вес всех младенцев в популяции.
#статистика
#статистика
🔥4👍3🥱2🌚2
В чём отличие одностороннего критерия от двустороннего?
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
👍5
Что вы знаете о тесте Хи-квадрат?
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
👍5
Что показывает квантильный график?
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
👍3❤1
Что такое степень свободы в статистике?
Степень свободы — это число значений переменной в выборке, которые нам необходимо знать, чтобы вычислить статистику (например, среднее значение или хи-квадрат).
✍️ Например, если у нас есть набор из четырёх чисел, и мы уже знаем их среднее значение, то три из них можно выбирать произвольно, а четвёртое будет определено автоматически. В этом случае степень свободы равна 3.
Чем больше степень свободы, тем больше вариативность данных.
#статистика
#статистика
👍5👏2
Какие статистические тесты вы знаете?
▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.
Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.
▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.
▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).
#статистика
▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.
Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.
▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.
▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).
#статистика
👍5
Что такое доверительный интервал?
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
❤5
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика