✍️ Разбираем задачу про преобразование данных
В этой задаче представлен график, отражающий распределение количества оценок на фильм. Это распределение имеет длинный хвост, что указывает на наличие значительного количества фильмов с небольшим количеством оценок и небольшого количества фильмов с большим количеством оценок. Для более информативного представления данных можно применить логарифмическое преобразование к количеству оценок.
Логарифмическое преобразование сгладит большие различия между фильмами с малым и большим количеством оценок. Кроме того, оно уменьшит влияние фильмов с очень большим количеством оценок, которые сейчас создают длинный хвост. Это сделает гистограмму более симметричной и поможет лучше увидеть детали распределения для фильмов с малым количеством оценок.
#разбор_задач
В этой задаче представлен график, отражающий распределение количества оценок на фильм. Это распределение имеет длинный хвост, что указывает на наличие значительного количества фильмов с небольшим количеством оценок и небольшого количества фильмов с большим количеством оценок. Для более информативного представления данных можно применить логарифмическое преобразование к количеству оценок.
Логарифмическое преобразование сгладит большие различия между фильмами с малым и большим количеством оценок. Кроме того, оно уменьшит влияние фильмов с очень большим количеством оценок, которые сейчас создают длинный хвост. Это сделает гистограмму более симметричной и поможет лучше увидеть детали распределения для фильмов с малым количеством оценок.
#разбор_задач
👍5🔥2
✍️ Воскресный разбор задач прошедшей недели
Сегодня поговорим об ошибках первого и второго рода.
▪️Допустить ошибку первого рода это отвергнуть нулевую гипотезу, при условии, что именно она верна.
Нулевая гипотеза — это гипотеза, предполагающая, что никаких изменений не произошло/влияния нет
▪️Допустить ошибку второго рода это принять нулевую гипотезу, при условии, что верна альтернативная гипотеза.
Альтернативная гипотеза — это гипотеза, предполагающая, что изменения произошли/есть влияние.
А теперь вернёмся к нашей задаче. Для антиспам-фильтра нулевая гипотеза — это предположение, что новое входящее письмо является обычным письмом, не спамом. Альтернативная гипотеза тогда — это предположение, что письмо является спамом. В нашей ситуации, верна именно альтернативная гипотеза, но антиспам-фильтр принимает нулевую гипотезу. Это пример ошибки второго рода.
#разбор_задач
Сегодня поговорим об ошибках первого и второго рода.
▪️Допустить ошибку первого рода это отвергнуть нулевую гипотезу, при условии, что именно она верна.
▪️Допустить ошибку второго рода это принять нулевую гипотезу, при условии, что верна альтернативная гипотеза.
А теперь вернёмся к нашей задаче. Для антиспам-фильтра нулевая гипотеза — это предположение, что новое входящее письмо является обычным письмом, не спамом. Альтернативная гипотеза тогда — это предположение, что письмо является спамом. В нашей ситуации, верна именно альтернативная гипотеза, но антиспам-фильтр принимает нулевую гипотезу. Это пример ошибки второго рода.
#разбор_задач
👍7
✍️ Воскресный разбор задач
Сегодня разберёмся с архитектурами GPT и BERT.
▪️GPT (Generative Pretrained Transformer)
Она появилась раньше, чем BERT. Её архитектура представляет собой последовательность слоёв декодера трансформера.
Декодер — это ключевой компонент, который использует механизм self-attention для предсказания следующего токена в последовательности, основываясь на предыдущих. Он генерирует текст, шаг за шагом, добавляя токены до тех пор, пока не будет достигнут конец последовательности.
На каждом шаге GPT обучается предсказывать следующий токен на основе уже предсказанных. Поэтому модель хорошо подходит для задач генерации текста.
▪️BERT (Bidirectional Encoder Representations from Transformers)
Эта архитектура появилась чуть позже. От GPT её отличает то, что в ней реализована двунаправленность внимания. Так при обработке входной последовательности все токены могут использовать информацию друг о друге.
Благодаря этому BERT более удобна для задач, где нужно сделать предсказание относительно всего входа целиком без генерации, например, при классификации или поиске пар похожих документов.
#разбор_задач
Сегодня разберёмся с архитектурами GPT и BERT.
▪️GPT (Generative Pretrained Transformer)
Она появилась раньше, чем BERT. Её архитектура представляет собой последовательность слоёв декодера трансформера.
На каждом шаге GPT обучается предсказывать следующий токен на основе уже предсказанных. Поэтому модель хорошо подходит для задач генерации текста.
▪️BERT (Bidirectional Encoder Representations from Transformers)
Эта архитектура появилась чуть позже. От GPT её отличает то, что в ней реализована двунаправленность внимания. Так при обработке входной последовательности все токены могут использовать информацию друг о друге.
Благодаря этому BERT более удобна для задач, где нужно сделать предсказание относительно всего входа целиком без генерации, например, при классификации или поиске пар похожих документов.
#разбор_задач
👍2🔥2
✍️ Разбор задач прошедшей недели
Сегодня вспомним, что такое bias (смещение) и variance (разброс).
✅ Итак, представим, что вы каким-то образом обучили модель и хотите оценить, насколько хорошо она справляется со своей задачей предсказания целевого значения. Вы даёте ей данные и получаете некоторый результат. Теперь его можно использовать, чтобы понять некоторые вещи про модель.
Так, смещением называют матожидание разности между истинным значением и тем, что было выдано моделью. Разброс же — это дисперсия ответов модели, то есть мера того, насколько эти ответы варьируются в зависимости от данных.
Легко догадаться, что чем меньше смещение, тем более близкие к истинным результаты выдаёт модель. А чем меньше разброс, тем стабильнее модель, тем выше её обобщающая способность. Например, глубокие деревья способны безошибочно выучить обучающую выборку и потому будут иметь высокий разброс в зависимости от выборки, однако их предсказания в среднем будут точнее.
Что касается нейросети с большим числом нейронов в каждом скрытом слое, то такая модель, аналогично глубокому дереву, может зазубрить обучающую выборку, а значит иметь низкое смещение и высокий разброс.
#разбор_задач
Сегодня вспомним, что такое bias (смещение) и variance (разброс).
✅ Итак, представим, что вы каким-то образом обучили модель и хотите оценить, насколько хорошо она справляется со своей задачей предсказания целевого значения. Вы даёте ей данные и получаете некоторый результат. Теперь его можно использовать, чтобы понять некоторые вещи про модель.
Так, смещением называют матожидание разности между истинным значением и тем, что было выдано моделью. Разброс же — это дисперсия ответов модели, то есть мера того, насколько эти ответы варьируются в зависимости от данных.
Легко догадаться, что чем меньше смещение, тем более близкие к истинным результаты выдаёт модель. А чем меньше разброс, тем стабильнее модель, тем выше её обобщающая способность. Например, глубокие деревья способны безошибочно выучить обучающую выборку и потому будут иметь высокий разброс в зависимости от выборки, однако их предсказания в среднем будут точнее.
Что касается нейросети с большим числом нейронов в каждом скрытом слое, то такая модель, аналогично глубокому дереву, может зазубрить обучающую выборку, а значит иметь низкое смещение и высокий разброс.
#разбор_задач
❤2👍1
✍️ Воскресный разбор задач
Сегодня разберём вопрос про зависимость смещения и дисперсии от параметра lambda в линейной регрессии с регуляризацией.
🔹Регуляризация — это способ добавить к модели дополнительное ограничение на вектор весов. Обычно для этого используются L1- и L2-нормы. Их смысл заключается в добавлении к формуле линейной регрессии регуляризационного члена, который состоит из суммы весов, умноженной на lambda — коэффициент регуляризации.
Нетрудно догадаться, что lambda довольно сильно влияет на качество итогового решения. Если этот параметр, например, равен 1, то мы не прибавляем к формуле ничего кроме суммы весов, а если он равен 10, то прибавка, соответственно, становится десятикратной суммой весов.
👀 А теперь, держа это знание в голове, подумаем: что будет со смещением и дисперсией, когда мы увеличиваем lambda?
Напомним, смещение — это матожидание разности между истинным значением и тем, что было выдано моделью. Дисперсия — это разброс ответов модели, то есть мера того, насколько эти ответы варьируются в зависимости от данных.
Если мы прибавляем к ответу модели сумму весов, да ещё и умноженную на 10, то матожидание между этим ответом и истинным значением, конечно, станет больше. То есть смещение увеличится. Но при этом модель будет, вероятно, лучше обобщать данные, и её дисперсия уменьшится. Поэтому стоит помнить, что что слишком большое значение lambda может привести к тому, что модель начнёт недообучаться.
#разбор_задач
Сегодня разберём вопрос про зависимость смещения и дисперсии от параметра lambda в линейной регрессии с регуляризацией.
🔹Регуляризация — это способ добавить к модели дополнительное ограничение на вектор весов. Обычно для этого используются L1- и L2-нормы. Их смысл заключается в добавлении к формуле линейной регрессии регуляризационного члена, который состоит из суммы весов, умноженной на lambda — коэффициент регуляризации.
Нетрудно догадаться, что lambda довольно сильно влияет на качество итогового решения. Если этот параметр, например, равен 1, то мы не прибавляем к формуле ничего кроме суммы весов, а если он равен 10, то прибавка, соответственно, становится десятикратной суммой весов.
👀 А теперь, держа это знание в голове, подумаем: что будет со смещением и дисперсией, когда мы увеличиваем lambda?
Если мы прибавляем к ответу модели сумму весов, да ещё и умноженную на 10, то матожидание между этим ответом и истинным значением, конечно, станет больше. То есть смещение увеличится. Но при этом модель будет, вероятно, лучше обобщать данные, и её дисперсия уменьшится. Поэтому стоит помнить, что что слишком большое значение lambda может привести к тому, что модель начнёт недообучаться.
#разбор_задач
👍3
✍️ Разбор задач прошедшей недели
1️⃣ KNN — это параметрический метод машинного обучения?
Метод k -ближайших соседей (KNN) считается непараметрическим, потому что он не делает предположений о распределении данных и не имеет фиксированного набора параметров, которые обучаются заранее.
В параметрических методах (например, линейной регрессии или логистической регрессии) модель на этапе обучения оценивает параметры, которые затем используются для получения предсказаний. В KNN модель не «учится» в традиционном смысле: нет фиксированной функции, описывающей взаимосвязь между признаками и целевой переменной.
2️⃣ Какая оценка дисперсии считается смещённой?
Оценка дисперсии считается смещённой, если её математическое ожидание не совпадает с истинным значением дисперсии генеральной совокупности. Когда мы делим на n (размер выборки), а не на n-1, то систематически занижаем дисперсию, так как не учитываем факт того, что среднее вычислено по той же выборке и поэтому менее точно приближает истинное среднее генеральной совокупности.
В случае деления на n-1 мы компенсируем «потерю одной степени свободы» из-за использования выборочного среднего вместо истинного.
#разбор_задач
1️⃣ KNN — это параметрический метод машинного обучения?
Метод k -ближайших соседей (KNN) считается непараметрическим, потому что он не делает предположений о распределении данных и не имеет фиксированного набора параметров, которые обучаются заранее.
В параметрических методах (например, линейной регрессии или логистической регрессии) модель на этапе обучения оценивает параметры, которые затем используются для получения предсказаний. В KNN модель не «учится» в традиционном смысле: нет фиксированной функции, описывающей взаимосвязь между признаками и целевой переменной.
2️⃣ Какая оценка дисперсии считается смещённой?
Оценка дисперсии считается смещённой, если её математическое ожидание не совпадает с истинным значением дисперсии генеральной совокупности. Когда мы делим на n (размер выборки), а не на n-1, то систематически занижаем дисперсию, так как не учитываем факт того, что среднее вычислено по той же выборке и поэтому менее точно приближает истинное среднее генеральной совокупности.
В случае деления на n-1 мы компенсируем «потерю одной степени свободы» из-за использования выборочного среднего вместо истинного.
#разбор_задач
👍4