Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
#вопросы_с_собеседований
Что такое Random Forest?
Random Forest, или случайный лес, — это один из немногих универсальных алгоритмов обучения, который способен выполнять задачи классификации, регрессии и кластеризации.
Случайный лес состоит из большого количества отдельных деревьев решений, которые по сути являются ансамблем методов. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса.
Что такое Random Forest?
Random Forest, или случайный лес, — это один из немногих универсальных алгоритмов обучения, который способен выполнять задачи классификации, регрессии и кластеризации.
Случайный лес состоит из большого количества отдельных деревьев решений, которые по сути являются ансамблем методов. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса.
👍3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Перечислите этапы построения дерева решений
Взять весь набор входных данных.
Вычислить энтропию целевой переменной, а также прогнозные атрибуты.
Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).
Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.
Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.
#вопросы_с_собеседований
Взять весь набор входных данных.
Вычислить энтропию целевой переменной, а также прогнозные атрибуты.
Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).
Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.
Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.
#вопросы_с_собеседований
👍2
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Как рассчитать точность прогноза, используя матрицу ошибок?
В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.
#вопросы_с_собеседований
В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.
#вопросы_с_собеседований
👍2
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Что такое аугментация данных? Можете привести примеры?
Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение — одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:
— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета
#вопросы_с_собеседований
Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение — одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:
— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета
#вопросы_с_собеседований
👍3🔥2
Что такое нормализация данных и зачем она нам нужна?
Нормализация данных — очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.
Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.
#вопросы_с_собеседований
Нормализация данных — очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.
Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.
#вопросы_с_собеседований
👍2🔥1
В чем разница между func и func()?
Вопрос должен проверить ваше понимание, что все функции в Python также являются объектами:
def func():
print('Im a function')
func
#=> function main.func>
func()
#=> Im a function
func — это представляющий функцию объект, который можно назначить переменной или передать другой функции. Функция func() с круглыми скобками вызывает функцию и возвращает результат.
#вопросы_с_собеседований
Вопрос должен проверить ваше понимание, что все функции в Python также являются объектами:
def func():
print('Im a function')
func
#=> function main.func>
func()
#=> Im a function
func — это представляющий функцию объект, который можно назначить переменной или передать другой функции. Функция func() с круглыми скобками вызывает функцию и возвращает результат.
#вопросы_с_собеседований
👍1
Что такое оверфиттинг (переобучение)?
Когда ваша модель очень хорошо работает на вашем тренировочном наборе, но не может обобщить тестовый набор, потому что она сильно адаптирована к тренировочному набору.
#вопросы_с_собеседований
Когда ваша модель очень хорошо работает на вашем тренировочном наборе, но не может обобщить тестовый набор, потому что она сильно адаптирована к тренировочному набору.
#вопросы_с_собеседований
🔥1
В чем разница между машинным обучением с учителем и без учителя?
Для обучения с учителем требуются данные, помеченные для обучения. Например, чтобы провести классификацию (задача обучения с учителем), вам нужно сначала пометить данные, которые вы будете использовать для обучения модели, для классификации данных по помеченным группам; в то же время обучение без учителя не требует явной маркировки
#вопросы_с_собеседований
Для обучения с учителем требуются данные, помеченные для обучения. Например, чтобы провести классификацию (задача обучения с учителем), вам нужно сначала пометить данные, которые вы будете использовать для обучения модели, для классификации данных по помеченным группам; в то же время обучение без учителя не требует явной маркировки
#вопросы_с_собеседований
Что такое рекуррентные нейронные сети (RNN)?
Рекуррентные нейронные сети — это вид нейросетей, в которых связи между элементами образуют направленную последовательность. Это позволяет обрабатывать серии событий во времени или последовательные пространственные цепочки.
Они используются преимущественно для задач, где нечто цельное состоит из ряда объектов, например при распознавании рукописного текста или речи.
#вопросы_с_собеседований
Рекуррентные нейронные сети — это вид нейросетей, в которых связи между элементами образуют направленную последовательность. Это позволяет обрабатывать серии событий во времени или последовательные пространственные цепочки.
Они используются преимущественно для задач, где нечто цельное состоит из ряда объектов, например при распознавании рукописного текста или речи.
#вопросы_с_собеседований
👍2
Что такое нормальное распределение?
График колокола, также известный как нормальное распределение, представляет собой распределение, в котором большинство наблюдений сосредоточены в центре, а по мере удаления от центра количество наблюдений уменьшается. Статистически значимым является то, что при нормальном распределении 68% данных попадают в пределы одного стандартного отклонения от среднего значения, 95% данных — в пределы двух стандартных отклонений, а 99.7% данных — в пределы трех стандартных отклонений от среднего.
#вопросы_с_собеседований
График колокола, также известный как нормальное распределение, представляет собой распределение, в котором большинство наблюдений сосредоточены в центре, а по мере удаления от центра количество наблюдений уменьшается. Статистически значимым является то, что при нормальном распределении 68% данных попадают в пределы одного стандартного отклонения от среднего значения, 95% данных — в пределы двух стандартных отклонений, а 99.7% данных — в пределы трех стандартных отклонений от среднего.
#вопросы_с_собеседований
👍1
Что такое learning rate?
Скорость обучения — важный гиперпараметр, который контролирует, насколько быстро модель адаптируется к проблеме во время обучения. Его можно рассматривать как «ширину шага» во время обновления параметров, т. е. насколько далеко веса перемещаются в направлении минимума нашей задачи оптимизации.
#вопросы_с_собеседований
Скорость обучения — важный гиперпараметр, который контролирует, насколько быстро модель адаптируется к проблеме во время обучения. Его можно рассматривать как «ширину шага» во время обновления параметров, т. е. насколько далеко веса перемещаются в направлении минимума нашей задачи оптимизации.
#вопросы_с_собеседований
Что такое закон больших чисел и как его используют в Data Science?
Этот закон гласит, что по мере увеличения числа испытаний в случайном эксперименте среднее значение полученных результатов приближается к ожидаемому значению. В статистике он используется для описания взаимосвязи между размером выборки и точностью статистических оценок.
🔢 В Data Science закон больших чисел может использоваться в таких областях, как прогностическое моделирование, оценка рисков и контроль качества. Он помогает гарантировать, что среднее значение результатов большого числа независимых испытаний будет сходиться к ожидаемому значению. Это обеспечивает основу для статистического вывода и проверки гипотез.
Закон больших чисел также подводит к центральной предельной теореме. Она утверждает, что при больших размерах выборок распределение средних этих выборок будет приближаться к нормальному распределению, независимо от формы исходного распределения генеральной совокупности.
#вопросы_с_собеседований
Этот закон гласит, что по мере увеличения числа испытаний в случайном эксперименте среднее значение полученных результатов приближается к ожидаемому значению. В статистике он используется для описания взаимосвязи между размером выборки и точностью статистических оценок.
🔢 В Data Science закон больших чисел может использоваться в таких областях, как прогностическое моделирование, оценка рисков и контроль качества. Он помогает гарантировать, что среднее значение результатов большого числа независимых испытаний будет сходиться к ожидаемому значению. Это обеспечивает основу для статистического вывода и проверки гипотез.
Закон больших чисел также подводит к центральной предельной теореме. Она утверждает, что при больших размерах выборок распределение средних этих выборок будет приближаться к нормальному распределению, независимо от формы исходного распределения генеральной совокупности.
#вопросы_с_собеседований
Что вы знаете про нормальное распределение? Зачем оно нужно в Data Science?
Многие величины имеют нормальное распределение, которое также называют распределением Гаусса. Чаще всего, если на какую-то величину влияет много слабых независимых факторов, то эта величина будет иметь близкое к нормальному распределение.
У нормального распределения есть два параметра: математическое ожидание (среднее) и дисперсия. Распределение, у которого эти параметры соответственно равны нулю и единице, называют стандартным.
Также у нормального распределения есть несколько свойств:
▪️Симметричность относительно своего среднего значения.
▪️ График нормального распределения имеет характерную форму колокола.
▪️ Правило трёх сигм: около 68% значений лежат в пределах одного стандартного отклонения от среднего, около 95% — в пределах двух стандартных отклонений, и около 99.7% — в пределах трёх стандартных отклонений.
Многие статистические методы предполагают или опираются на нормальное распределение данных. К примеру, t-тест эффективен только тогда, когда данные соответствуют нормальному распределению. Кроме того, некоторые алгоритмы машинного обучения предполагают, что входные данные распределены нормально.
#вопросы_с_собеседований
Многие величины имеют нормальное распределение, которое также называют распределением Гаусса. Чаще всего, если на какую-то величину влияет много слабых независимых факторов, то эта величина будет иметь близкое к нормальному распределение.
У нормального распределения есть два параметра: математическое ожидание (среднее) и дисперсия. Распределение, у которого эти параметры соответственно равны нулю и единице, называют стандартным.
Также у нормального распределения есть несколько свойств:
▪️Симметричность относительно своего среднего значения.
▪️ График нормального распределения имеет характерную форму колокола.
▪️ Правило трёх сигм: около 68% значений лежат в пределах одного стандартного отклонения от среднего, около 95% — в пределах двух стандартных отклонений, и около 99.7% — в пределах трёх стандартных отклонений.
Многие статистические методы предполагают или опираются на нормальное распределение данных. К примеру, t-тест эффективен только тогда, когда данные соответствуют нормальному распределению. Кроме того, некоторые алгоритмы машинного обучения предполагают, что входные данные распределены нормально.
#вопросы_с_собеседований
👍3❤1