Что вы знаете об эмпирическом правиле в нормальном распределении?
Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:
▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.
#статистика
Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:
▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.
#статистика
👍10
Что такое смещение выборки в статистике и какие виды смещения выборки существуют?
Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.
Можно перечислить несколько видов смещения выборки:
▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.
▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.
▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.
▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.
▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.
#статистика
Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.
Можно перечислить несколько видов смещения выборки:
▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.
▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.
▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.
▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.
▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.
#статистика
❤5👍4
Как бы вы разбили все существующие магазины компании на две группы для проверки гипотезы?
Можно использовать различные подходы. Вот некоторые:
▪️Случайное разделение.
Рандомизация помогает снизить влияние внешних факторов.
▪️Стратификация.
Если есть известные переменные (например, географическое расположение, размер города, уровень дохода), которые могут влиять на результаты, можно сначала разделить магазины на подгруппы (страты) по этим переменным.
▪️Кластеризация.
Используя методы кластеризации (например, k-means), можно разбить магазины на группы по схожести характеристик (например, объём продаж, клиентская база).
В целом, выбор метода разделения выборки зависит от цели исследования и от самих данных.
#статистика
Можно использовать различные подходы. Вот некоторые:
▪️Случайное разделение.
Рандомизация помогает снизить влияние внешних факторов.
▪️Стратификация.
Если есть известные переменные (например, географическое расположение, размер города, уровень дохода), которые могут влиять на результаты, можно сначала разделить магазины на подгруппы (страты) по этим переменным.
▪️Кластеризация.
Используя методы кластеризации (например, k-means), можно разбить магазины на группы по схожести характеристик (например, объём продаж, клиентская база).
В целом, выбор метода разделения выборки зависит от цели исследования и от самих данных.
#статистика
👍7❤2
Какие статистические тесты можно применить для сравнения среднего двух выборок?
▪️Z-тест
Это самый очевидный выбор. Для его применения предположим, что выполнена нулевая гипотеза — обе выборки получены из одного распределения с неизвестным средним. Тогда построим статистику с распределением 𝑁(0,1), чтобы применить z-тест. Стоит отметить, что размер выборки должен быть достаточно большой.
▪️U-критерий Манна-Уитни
Пусть в выборках одинаковое количество элементов, и выборки большие. Разобьём первую на 100 групп одинакового размера. Внутри каждой группы посчитаем среднее. Мы получим 100 чисел. Сделаем то же самое для второй выборки. Получим ещё 100 чисел. Теперь применяем тест Манна-Уитни к этим двум сотням чисел, как к двум выборкам.
▪️Точный тест Фишера и критерий согласия Пирсона (критерий хи-квадрат)
Точный тест Фишера применяется только на очень маленьких выборках, так как на больших выборках он трудно вычислим. Для больших выборок применяют критерий хи-квадрат.
#статистика
▪️Z-тест
Это самый очевидный выбор. Для его применения предположим, что выполнена нулевая гипотеза — обе выборки получены из одного распределения с неизвестным средним. Тогда построим статистику с распределением 𝑁(0,1), чтобы применить z-тест. Стоит отметить, что размер выборки должен быть достаточно большой.
▪️U-критерий Манна-Уитни
Пусть в выборках одинаковое количество элементов, и выборки большие. Разобьём первую на 100 групп одинакового размера. Внутри каждой группы посчитаем среднее. Мы получим 100 чисел. Сделаем то же самое для второй выборки. Получим ещё 100 чисел. Теперь применяем тест Манна-Уитни к этим двум сотням чисел, как к двум выборкам.
▪️Точный тест Фишера и критерий согласия Пирсона (критерий хи-квадрат)
Точный тест Фишера применяется только на очень маленьких выборках, так как на больших выборках он трудно вычислим. Для больших выборок применяют критерий хи-квадрат.
#статистика
❤5👍1
Какова разница между параметром и статистикой?
▪️Параметр — это фиксированное, но неизвестное число, описывающее некоторую характеристику генеральной совокупности. Например, в качестве параметра может выступать средний вес младенца в популяции.
▪️ Статистика — это оценка некоторого параметра. Например, если мы возьмём выборку из 100 младенцев и посчитаем их средний вес, то это будет статистика , которая оценивает истинный параметр — средний вес всех младенцев в популяции.
#статистика
#статистика
🔥4👍3🥱2🌚2
В чём отличие одностороннего критерия от двустороннего?
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
👍5
Что вы знаете о тесте Хи-квадрат?
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
👍5
Что показывает квантильный график?
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
👍3❤1
Что такое степень свободы в статистике?
Степень свободы — это число значений переменной в выборке, которые нам необходимо знать, чтобы вычислить статистику (например, среднее значение или хи-квадрат).
✍️ Например, если у нас есть набор из четырёх чисел, и мы уже знаем их среднее значение, то три из них можно выбирать произвольно, а четвёртое будет определено автоматически. В этом случае степень свободы равна 3.
Чем больше степень свободы, тем больше вариативность данных.
#статистика
#статистика
👍5👏2
Какие статистические тесты вы знаете?
▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.
Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.
▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.
▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).
#статистика
▪️T-test
Это тест параметрического типа. Он применяется, когда нужно понять, есть ли различия в среднем значении переменной между двумя группами наблюдений. Нулевая гипотеза здесь предполагает, что средние значения переменной в двух группах не отличаются значимо.
Кроме того, прежде чем проводить T-тест, необходимо проверить, что переменная для оценки непрерывна, распределена близко к нормальному и обладает незначительными различиями в дисперсии между двумя группами наблюдений.
▪️ANOVA
Используется для проверки различий между средними значениями трёх или более групп. Нулевая гипотеза предполагает, что все группы имеют одинаковое среднее значение, а альтернативная — что хотя бы одна группа отличается. ANOVA требует выполнения следующих условий:
1. Нормальное распределение данных в каждой группе.
2. Группы имеют одинаковую дисперсию (гомогенность дисперсий).
3. Независимость наблюдений между группами.
▪️Chi-Square тест
Хи-квадрат тест используется для анализа взаимосвязей между категориальными переменными. Нулевая гипотеза утверждает, что между переменными нет связи. Этот тест часто применяется в таблицах сопряжённости (например, для проверки зависимости между полом и предпочтением товара).
#статистика
👍5
Что такое доверительный интервал?
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
❤5
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика