Что бы вы предпочли использовать при классификации текста с помощью метода «мешок слов»: модель градиентного бустинга на деревьях или логистическую регрессию?
Стоит учитывать, что при применении «мешка слов» представление данных может быть довольно разреженным и высокоразмерным: создаётся множество столбцов. В этой ситуации логистическая регрессия может быть лучшим выбором, особенно если нужна модель, которая быстро обучается и легко интерпретируется. Как минимум, её можно использовать в качестве базовой модели (baseline) — это будет неплохой отправной точкой.
#машинное_обучение
#NLP
Стоит учитывать, что при применении «мешка слов» представление данных может быть довольно разреженным и высокоразмерным: создаётся множество столбцов. В этой ситуации логистическая регрессия может быть лучшим выбором, особенно если нужна модель, которая быстро обучается и легко интерпретируется. Как минимум, её можно использовать в качестве базовой модели (baseline) — это будет неплохой отправной точкой.
#машинное_обучение
#NLP
👍9❤2
Что такое дистилляция модели (Knowledge Distillation)?
Это метод, который позволяет малой модели имитировать поведение большой модели. Чаще всего используется в NLP и компьютерном зрении. Позволяет снизить требования к вычислительным ресурсам при инференсе моделей без существенной потери качества.
При дистилляции «знания» из большой модели переносятся в малую благодаря минимизации функции потерь, в которой целевая переменная — это распределение вероятностей классов, предсказанных большой моделью. Также часто используется параметр «температура» для сглаживания вероятностей, предоставляемых большой моделью. При более высокой температуре вероятности становятся более сглаженными, что помогает передать более тонкие отношения между различными классами.
Подробнее можно прочитать здесь
#NLP
#глубокое_обучение
Это метод, который позволяет малой модели имитировать поведение большой модели. Чаще всего используется в NLP и компьютерном зрении. Позволяет снизить требования к вычислительным ресурсам при инференсе моделей без существенной потери качества.
При дистилляции «знания» из большой модели переносятся в малую благодаря минимизации функции потерь, в которой целевая переменная — это распределение вероятностей классов, предсказанных большой моделью. Также часто используется параметр «температура» для сглаживания вероятностей, предоставляемых большой моделью. При более высокой температуре вероятности становятся более сглаженными, что помогает передать более тонкие отношения между различными классами.
Подробнее можно прочитать здесь
#NLP
#глубокое_обучение
🔥7
Что вы знаете о метрике perplexity (перплексия)?
Эта метрика применяется для оценки языковых моделей. Если описать грубо, это недоумение, которое испытывает модель, когда генерирует новое предложение. Нам нужно, чтобы языковая модель давала высокие вероятности настоящим, синтаксически корректным предложениям, и низкие вероятности — ненастоящим, некорректным или редко встречающимся предложениям. Если тестовый набор данных состоит из настоящих и корректных предложений, то лучшей моделью будет та, которая назначит наивысшую вероятность этому тестовому набору. В этом случае перплексия будет низкой. Так, чем меньше perplexity, тем лучше.
Подробнее про перплексию можно прочесть здесь.
#NLP
#глубокое_обучение
Эта метрика применяется для оценки языковых моделей. Если описать грубо, это недоумение, которое испытывает модель, когда генерирует новое предложение. Нам нужно, чтобы языковая модель давала высокие вероятности настоящим, синтаксически корректным предложениям, и низкие вероятности — ненастоящим, некорректным или редко встречающимся предложениям. Если тестовый набор данных состоит из настоящих и корректных предложений, то лучшей моделью будет та, которая назначит наивысшую вероятность этому тестовому набору. В этом случае перплексия будет низкой. Так, чем меньше perplexity, тем лучше.
Подробнее про перплексию можно прочесть здесь.
#NLP
#глубокое_обучение
❤6