Machine learning Interview

#вопросы_с_собеседований
Перечислите этапы построения дерева решений

Взять весь набор входных данных.

Вычислить энтропию целевой переменной, а также прогнозные атрибуты.

Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).

Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.

Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.

👍12

878 views12:13

Machine learning Interview

#вопросы_с_собеседований
Что такое ансамбль методов?

Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.

794 views12:13

Machine learning Interview

#вопросы_с_собеседований
Что такое закон больших чисел?

Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.

При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.

К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.

👍4❤1

788 views12:13

Machine learning Interview

#вопросы_с_собеседований
Как работает ROC-кривая?

ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.

Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:

TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:

ROC(x) = TPR(FPR-1(x)), x є [0,1]

ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.

👍1

757 views12:13

Machine learning Interview

#вопросы_с_собеседований
Что такое проблемы взрывающегося и затухающего градиента?

Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.

В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.

Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.

Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.

👍2

724 views12:14

Machine learning Interview

#вопросы_с_собеседований
Пара вопросов с интервью по глубокому обучению.

1. Что произойдет, если learning rate установлен неточно (слишком низкий или слишком высокий)?
2. Что такое гиперпараметры?

677 views12:14

Machine learning Interview

#вопросы_с_собеседований
Как работает Долгая краткосрочная память?

675 views12:14

Machine learning Interview

#вопросы_с_собеседований
1. Что такое тензоры?
2. Что такое ограниченная машина Больцмана?

680 views12:14

Machine learning Interview

#вопросы_с_собеседований
В чем разница между машинным обучением с учителем и без учителя?

685 views12:14

Machine learning Interview

#вопросы_с_собеседований
Почему ReLU лучше и чаще используется в нейронных сетях, чем сигмоида?

👍1

686 views12:14

Machine learning Interview

#вопросы_с_собеседований
Что такое нормализация данных и зачем она нам нужна?

Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.

Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.

👍1

719 views12:14

Machine learning Interview

#вопросы_с_собеседований
Что такое аугментация данных? Можете привести примеры?

Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение - одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:

— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета

👍2

726 views12:14

Machine learning Interview

#вопросы_с_собеседований
Как рассчитать точность прогноза, используя матрицу ошибок?

В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.

718 views12:14

Machine learning Interview

#вопросы_с_собеседований
Что такое Random Forest?

Random Forest, или случайный лес, — это один из немногих универсальных алгоритмов обучения, который способен выполнять задачи классификации, регрессии и кластеризации.

Случайный лес состоит из большого количества отдельных деревьев решений, которые по сути являются ансамблем методов. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса.

👍9❤1

1.66K views06:44

Machine learning Interview

✅

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥1

3.12K viewsedited 15:00

Machine learning Interview

👍23🤡6

2.83K views08:50

Machine learning Interview

👍20🔥4❤3🤡2

3.7K views18:26

Machine learning Interview

❤16👍4🔥3🤡2

3.54K viewsedited 11:13

Machine learning Interview

Какова вычислительная сложность механизма self-attention?

В оригинальной статье Attention Is All You Need есть таблица со сравнением Complexity per Layer (сложность на слой) нового механизма self-attention и других архитектур. Указано, что для self-attention это значение составляет O(n^2 * d), где d — это размерность векторного представления.

В статье есть один нюанс. Авторы не учитывали сложность вычисления матриц Q, V и K (query, value и key). Их значения были взяты из скрытых состояний RNN. Поэтому идёт «чистый» расчёт для слоя Attention.

#вопросы_с_собеседований

👍5❤4🔥3

6.51K views11:02

About

Blog

Apps

Platform