Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Что произойдёт, если использовать LabelEncoder с линейным алгоритмом?
▶️ Начнём с того, что такое LabelEncoder.
Это один из самых простых способов закодировать категории. Допустим, у вас есть три категории: «Лондон», «Париж» и «Москва». Тогда вы просто заменяете эти строковые значения на 0, 1 и 2.
В документации scikit-learn написано, что LabelEncoder кодирует целевые метки значениями из диапазона от 0 до n_classes-1 (где n_classes — количество классов). То есть алгоритм предлагается использовать в основном для кодирования целевых меток. Технически его, конечно, можно применять для кодирования нецелевых признаков. Но тут могут возникнуть проблемы.
✍️ Сама суть LabelEncoder способствует созданию избыточных зависимостей в данных. Например, после преобразования получилось, что по некоторому признаку значение объекта Volvo равно 6, а BMW — 1. Можно интерпретировать это как то, что Volvo в 6 раз в чём-то превосходит BMW. Однако в исходных данных таких зависимостей не было.
При работе с категориальными переменными для линейных моделей можно, например, использовать One-Hot Encoding.
#машинное_обучение
▶️ Начнём с того, что такое LabelEncoder.
Это один из самых простых способов закодировать категории. Допустим, у вас есть три категории: «Лондон», «Париж» и «Москва». Тогда вы просто заменяете эти строковые значения на 0, 1 и 2.
В документации scikit-learn написано, что LabelEncoder кодирует целевые метки значениями из диапазона от 0 до n_classes-1 (где n_classes — количество классов). То есть алгоритм предлагается использовать в основном для кодирования целевых меток. Технически его, конечно, можно применять для кодирования нецелевых признаков. Но тут могут возникнуть проблемы.
✍️ Сама суть LabelEncoder способствует созданию избыточных зависимостей в данных. Например, после преобразования получилось, что по некоторому признаку значение объекта Volvo равно 6, а BMW — 1. Можно интерпретировать это как то, что Volvo в 6 раз в чём-то превосходит BMW. Однако в исходных данных таких зависимостей не было.
При работе с категориальными переменными для линейных моделей можно, например, использовать One-Hot Encoding.
#машинное_обучение
👍1
Что вы знаете про критерий Шовене?
Он позволяет найти выбросы в данных. Согласно критерию Шовене, значение p i-ое является выбросом, если выполнено неравенство, указанное на картинке выше.p с чертой — это среднее. А в знаменателе стоит отклонение. n — это объём выборки. Функция erfc является дополнением к функции ошибок (её вид, впрочем, неважен). С возрастанием аргумента, значение функции erfc стремится к нулю. То есть чем меньше значение функции, тем сильнее p i-ое отстоит от среднего значения, а значит является выбросом.
Фактически, использование критерия Шовене представляет собой итерационную процедуру, позволяющую найти все аномалии в данных за несколько шагов.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
🔵 Базовые модели ML и приложения
#машинное_обучение
Он позволяет найти выбросы в данных. Согласно критерию Шовене, значение p i-ое является выбросом, если выполнено неравенство, указанное на картинке выше.
Фактически, использование критерия Шовене представляет собой итерационную процедуру, позволяющую найти все аномалии в данных за несколько шагов.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👾1
Что вы знаете про критерий Дикки-Фуллера?
Критерий Дикки-Фуллера используется для проверки стационарности временных рядов. Этот тест позволяет определить, есть ли в данных временного ряда единичный корень, что означает наличие тренда или сезонности.
Тест использует регрессионный анализ для оценки автокорреляции и значений критических уровней. Если p-value меньше определённого уровня значимости (например, 0.05), то можно отвергнуть нулевую гипотезу и сделать вывод о стационарности ряда.
Критерий Дикки-Фуллера часто используется в анализе временных рядов, таких как финансовые данные или данные об изменениях температуры, где важно выявить закономерности для прогнозирования будущих значений.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
🔵 Базовые модели ML и приложения
#машинное_обучение
Критерий Дикки-Фуллера используется для проверки стационарности временных рядов. Этот тест позволяет определить, есть ли в данных временного ряда единичный корень, что означает наличие тренда или сезонности.
Тест использует регрессионный анализ для оценки автокорреляции и значений критических уровней. Если p-value меньше определённого уровня значимости (например, 0.05), то можно отвергнуть нулевую гипотезу и сделать вывод о стационарности ряда.
Критерий Дикки-Фуллера часто используется в анализе временных рядов, таких как финансовые данные или данные об изменениях температуры, где важно выявить закономерности для прогнозирования будущих значений.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Что вы знаете про ансамблевые методы?
Когда речь заходит о машинном обучении, многие сразу вспоминают нейронные сети или деревья решений. Однако есть особый класс методов, способных значительно улучшить качество моделей — ансамблевые методы.
Ансамблевые методы — это подход в машинном обучении, при котором несколько моделей (часто простых) объединяются для получения более точного и надежного результата. Основная идея в том, что объединение слабых моделей в определенной структуре может дать гораздо более мощную «супермодель».
🌻 Почему ансамблевые методы эффективны?
Ансамбли используют разнообразие: разные модели могут компенсировать ошибки друг друга. Они снижают вероятность переобучения и позволяют обрабатывать сложные паттерны данных.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
🔵 Базовые модели ML и приложения
#машинное_обучение
Когда речь заходит о машинном обучении, многие сразу вспоминают нейронные сети или деревья решений. Однако есть особый класс методов, способных значительно улучшить качество моделей — ансамблевые методы.
Ансамблевые методы — это подход в машинном обучении, при котором несколько моделей (часто простых) объединяются для получения более точного и надежного результата. Основная идея в том, что объединение слабых моделей в определенной структуре может дать гораздо более мощную «супермодель».
Ансамбли используют разнообразие: разные модели могут компенсировать ошибки друг друга. Они снижают вероятность переобучения и позволяют обрабатывать сложные паттерны данных.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Что такое Бустинг в машинном обучении
Бустинг — это один из мощных методов повышения качества моделей машинного обучения. Его цель — объединение нескольких слабых моделей (обычно простых алгоритмов) для создания одной сильной модели, которая улучшает точность предсказаний.
🌻 Как это работает?
▪️ Итеративное обучение: Модели обучаются поочередно. Каждая следующая модель стремится исправить ошибки предыдущей
▪️ Вес ошибок: Большое внимание уделяется тем данным, на которых предыдущие модели ошибались. Это позволяет концентрироваться на сложных для предсказания примерах
▪️ Комбинирование результатов: Финальный результат формируется путем взвешенного объединения предсказаний всех моделей
🌻 Когда использовать?
Бустинг особенно полезен, когда базовые алгоритмы не дают нужной точности. Например, он широко применяется в задачах классификации и регрессии, а также на соревнованиях по анализу данных, таких как Kaggle
В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:
🔵 Базовые модели ML и приложения
#машинное_обучение
Бустинг — это один из мощных методов повышения качества моделей машинного обучения. Его цель — объединение нескольких слабых моделей (обычно простых алгоритмов) для создания одной сильной модели, которая улучшает точность предсказаний.
▪️ Итеративное обучение: Модели обучаются поочередно. Каждая следующая модель стремится исправить ошибки предыдущей
▪️ Вес ошибок: Большое внимание уделяется тем данным, на которых предыдущие модели ошибались. Это позволяет концентрироваться на сложных для предсказания примерах
▪️ Комбинирование результатов: Финальный результат формируется путем взвешенного объединения предсказаний всех моделей
Бустинг особенно полезен, когда базовые алгоритмы не дают нужной точности. Например, он широко применяется в задачах классификации и регрессии, а также на соревнованиях по анализу данных, таких как Kaggle
В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Что такое KNN в машинном обучении
KNN (K-Nearest Neighbors) — это один из простейших и интуитивно понятных методов машинного обучения для решения задач классификации и регрессии. Его суть заключается в том, чтобы искать "соседей" объекта и предсказывать его класс на основе классов этих соседей.
🌻 Как это работает?
▪️ Поиск соседей: Для каждого нового объекта KNN ищет K ближайших соседей на основе выбранной метрики расстояния (например, Евклидово расстояние)
▪️ Голосование: В случае классификации объект относится к тому классу, который преобладает среди его соседей
▪️ Усреднение: В задачах регрессии предсказание для объекта — это среднее значение его соседей
🌻 Когда использовать?
KNN полезен, когда данные относительно простые и их не слишком много, так как метод требует много вычислительных ресурсов при больших объемах данных. Его часто применяют в задачах, где важна интерпретируемость и легкость реализации.
В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:
🔵 Базовые модели ML и приложения
#машинное_обучение
KNN (K-Nearest Neighbors) — это один из простейших и интуитивно понятных методов машинного обучения для решения задач классификации и регрессии. Его суть заключается в том, чтобы искать "соседей" объекта и предсказывать его класс на основе классов этих соседей.
▪️ Поиск соседей: Для каждого нового объекта KNN ищет K ближайших соседей на основе выбранной метрики расстояния (например, Евклидово расстояние)
▪️ Голосование: В случае классификации объект относится к тому классу, который преобладает среди его соседей
▪️ Усреднение: В задачах регрессии предсказание для объекта — это среднее значение его соседей
KNN полезен, когда данные относительно простые и их не слишком много, так как метод требует много вычислительных ресурсов при больших объемах данных. Его часто применяют в задачах, где важна интерпретируемость и легкость реализации.
В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Какие вы знаете автоматические способы обнаружения выбросов в датасете?
Вот несколько подходов:
▪️Isolation forest
Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.
▪️Local Outlier Factor (LOF)
Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.
▪️Расстояние Махаланобиса
Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.
#машинное_обучение
#данные
Вот несколько подходов:
▪️Isolation forest
Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.
▪️Local Outlier Factor (LOF)
Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.
▪️Расстояние Махаланобиса
Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.
#машинное_обучение
#данные
👍1
Что такое случайные леса (Random Forests) в машинном обучении
Случайные леса — это ансамблевая методика машинного обучения, которая основана на объединении многих деревьев решений. Они используют бутстрэпинг (случайный отбор данных) и случайное выборочное разделение при построении деревьев.
🌻 Когда применять?
▪️ При решении задач классификации и регрессии, где много шума в данных
▪️ Для борьбы с переобучением модели
▪️ Когда важна точность и вы не можете позволить себе ошибки
В курсе по машинному обучению вы лучше узнаете про случайные леса:
🔵 Базовые модели ML и приложения
#машинное_обучение
Случайные леса — это ансамблевая методика машинного обучения, которая основана на объединении многих деревьев решений. Они используют бутстрэпинг (случайный отбор данных) и случайное выборочное разделение при построении деревьев.
▪️ При решении задач классификации и регрессии, где много шума в данных
▪️ Для борьбы с переобучением модели
▪️ Когда важна точность и вы не можете позволить себе ошибки
В курсе по машинному обучению вы лучше узнаете про случайные леса:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
👍1
Что вы знаете про критерий Шовене?
Он позволяет найти выбросы в данных. Согласно критерию Шовене, значение p i-ое является выбросом, если выполнено неравенство, указанное на картинке выше.p с чертой — это среднее. А в знаменателе стоит отклонение. n — это объём выборки. Функция erfc является дополнением к функции ошибок (её вид, впрочем, неважен). С возрастанием аргумента, значение функции erfc стремится к нулю. То есть чем меньше значение функции, тем сильнее p i-ое отстоит от среднего значения, а значит является выбросом.
Фактически, использование критерия Шовене представляет собой итерационную процедуру, позволяющую найти все аномалии в данных за несколько шагов.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
🔵 Базовые модели ML и приложения
#машинное_обучение
Он позволяет найти выбросы в данных. Согласно критерию Шовене, значение p i-ое является выбросом, если выполнено неравенство, указанное на картинке выше.
Фактически, использование критерия Шовене представляет собой итерационную процедуру, позволяющую найти все аномалии в данных за несколько шагов.
Подтяните свои знания о машинном обучении вместе с нашим курсом:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1