Библиотека собеса по Data Science | вопросы с собеседований

Можно ли считать функцию потерь метрикой качества?

Нет, ставить знак равенства здесь нельзя.

✅ Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её

обучении

. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации:

обучение

модели заключается в минимизации значения этой функции.

Примеры:

▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.

▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.

✅ Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.

Примеры:

▪️Точность (Accuracy) для классификации.

▪️F1-мера для задач с несбалансированными классами.

#машинное_обучение

👍7🥱1

1.03K views18:11

Библиотека собеса по Data Science | вопросы с собеседований

Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе

обученных

моделей выделяют слова или фразы, относящиеся к этим категориям. Для

обучения

используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.

#машинное_обучение #NLP

👍9

1.11K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Опишите какой-нибудь метод подбора гиперпараметров?

Можно использовать метод Grid Search.

✍️ Это перебор по сетке. Алгоритм таков:

▪️для каждого гиперпараметра фиксируется несколько значений;
▪️далее составляются все возможные комбинации;
▪️на каждой из этих комбинаций модель обучается и тестируется;
▪️выбирается комбинация, на которой модель показывает лучшее качество.

К недостаткам метода относятся его вычислительные затраты: если комбинаций параметров слишком много, алгоритм не завершится за разумное время.

#машинное_обучение

❤3

1.03K views13:02

Библиотека собеса по Data Science | вопросы с собеседований

Что такое темп обучения в градиентном бустинге?

Градиентный бустинг может переобучиться. Если, например, базовые алгоритмы слишком сложные (предположим, решающие деревья слишком глубокие), то при обучении ошибка на обучающей выборке может приблизиться к нулю.

Чтобы смягчить этот эффект, можно ввести темп обучения (learning rate). Это параметр, лежащий в диапазон от нуля (не включая его) до единицы (включая её). Темп обучения позволяет добиться того, чтобы каждый базовый алгоритм вносил относительно небольшой вклад во всю композицию.

Значение параметра обычно определяется эмпирически по входным данным.

#машинное_обучение

👍1

1.13K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Расскажите о некоторых мерах сходства, используемых в машинном обучении.

🔹Косинусное сходство
Определяется через рассмотрение двух векторов в n-мерном пространстве и вычисление косинуса угла между ними. Диапазон значений этой меры — от [-1, 1], где значение 1 означает, что два вектора максимально схожи, а -1 — что они различны.

🔹Евклидово или Манхэттенское расстояние
Эти значения представляют собой расстояния между двумя точками в n-мерном пространстве. Основное различие между ними заключается в способе их вычисления:
▪️Евклидово расстояние вычисляется как прямая линия между двумя точками.
▪️Манхэттенское расстояние — сумма абсолютных разниц координат, представляя путь «по сетке».

🔹 Сходство Жаккара
Также известно как IoU (Intersection over Union). Широко применяется в области детекции объектов для оценки перекрытия между предсказанным ограничивающим прямоугольником и истинным (ground truth). Вычисляется как отношение пересечения множества (Intersection) к объединению множества (Union).

#машинное_обучение

👍3

1.15K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика

1.49K views18:30

Библиотека собеса по Data Science | вопросы с собеседований

Как быть с категориальными предикторами при построении линейной регрессии?

Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.

▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.

▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.

#машинное_обучение

👍3

1.07K views18:12

About

Blog

Apps

Platform