Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Что такое критерий Колмогорова-Смирнова?
Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️
Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.
Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.
Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.
#статистика
Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️
Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.
Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.
Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.
#статистика
❤1
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
👍1