В чём отличие одностороннего критерия от двустороннего?
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
👍5
Что вы знаете о тесте Хи-квадрат?
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
👍5
Что показывает квантильный график?
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
👍3❤1
Что такое степень свободы в статистике?
Степень свободы — это число значений переменной в выборке, которые нам необходимо знать, чтобы вычислить статистику (например, среднее значение или хи-квадрат).
✍️ Например, если у нас есть набор из четырёх чисел, и мы уже знаем их среднее значение, то три из них можно выбирать произвольно, а четвёртое будет определено автоматически. В этом случае степень свободы равна 3.
Чем больше степень свободы, тем больше вариативность данных.
#статистика
#статистика
👍5👏2
Какие статистические тесты вы знаете?
▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.
Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.
▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.
▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).
#статистика
▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.
Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.
▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.
▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).
#статистика
👍5
Что такое доверительный интервал?
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
❤5
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика