Proglib.academy | IT-курсы

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Что произойдёт, если использовать LabelEncoder с линейным алгоритмом?

▶️ Начнём с того, что такое LabelEncoder.
Это один из самых простых способов закодировать категории. Допустим, у вас есть три категории: «Лондон», «Париж» и «Москва». Тогда вы просто заменяете эти строковые значения на 0, 1 и 2.

В документации scikit-learn написано, что LabelEncoder кодирует целевые метки значениями из диапазона от 0 до n_classes-1 (где n_classes — количество классов). То есть алгоритм предлагается использовать в основном для кодирования целевых меток. Технически его, конечно, можно применять для кодирования нецелевых признаков. Но тут могут возникнуть проблемы.

✍️ Сама суть LabelEncoder способствует созданию избыточных зависимостей в данных. Например, после преобразования получилось, что по некоторому признаку значение объекта Volvo равно 6, а BMW — 1. Можно интерпретировать это как то, что Volvo в 6 раз в чём-то превосходит BMW. Однако в исходных данных таких зависимостей не было.

При работе с категориальными переменными для линейных моделей можно, например, использовать One-Hot Encoding.

#машинное_обучение

👍1

764 views12:02

Proglib.academy | IT-курсы

Что вы знаете про критерий Шовене?

Он позволяет найти выбросы в данных. Согласно критерию Шовене, значение p i-ое является выбросом, если выполнено неравенство, указанное на картинке выше. p с чертой — это среднее. А в знаменателе стоит отклонение. n — это объём выборки. Функция erfc является дополнением к функции ошибок (её вид, впрочем, неважен). С возрастанием аргумента, значение функции erfc стремится к нулю. То есть чем меньше значение функции, тем сильнее p i-ое отстоит от среднего значения, а значит является выбросом.

Фактически, использование критерия Шовене представляет собой итерационную процедуру, позволяющую найти все аномалии в данных за несколько шагов.

Подтяните свои знания о машинном обучении вместе с нашим курсом:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1👾1

573 views07:05

Proglib.academy | IT-курсы

Что вы знаете про критерий Дикки-Фуллера?

Критерий Дикки-Фуллера используется для проверки стационарности временных рядов. Этот тест позволяет определить, есть ли в данных временного ряда единичный корень, что означает наличие тренда или сезонности.

Тест использует регрессионный анализ для оценки автокорреляции и значений критических уровней. Если p-value меньше определённого уровня значимости (например, 0.05), то можно отвергнуть нулевую гипотезу и сделать вывод о стационарности ряда.

Критерий Дикки-Фуллера часто используется в анализе временных рядов, таких как финансовые данные или данные об изменениях температуры, где важно выявить закономерности для прогнозирования будущих значений.

Подтяните свои знания о машинном обучении вместе с нашим курсом:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

3.08K views18:01

Proglib.academy | IT-курсы

Что вы знаете про ансамблевые методы?

Когда речь заходит о машинном обучении, многие сразу вспоминают нейронные сети или деревья решений. Однако есть особый класс методов, способных значительно улучшить качество моделей — ансамблевые методы.

Ансамблевые методы — это подход в машинном обучении, при котором несколько моделей (часто простых) объединяются для получения более точного и надежного результата. Основная идея в том, что объединение слабых моделей в определенной структуре может дать гораздо более мощную «супермодель».

🌻

Почему ансамблевые методы эффективны?

Ансамбли используют разнообразие: разные модели могут компенсировать ошибки друг друга. Они снижают вероятность переобучения и позволяют обрабатывать сложные паттерны данных.

Подтяните свои знания о машинном обучении вместе с нашим курсом:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

415 views18:01

Proglib.academy | IT-курсы

Что такое Бустинг в машинном обучении

Бустинг — это один из мощных методов повышения качества моделей машинного обучения. Его цель — объединение нескольких слабых моделей (обычно простых алгоритмов) для создания одной сильной модели, которая улучшает точность предсказаний.

🌻 Как это работает?

▪️ Итеративное обучение: Модели обучаются поочередно. Каждая следующая модель стремится исправить ошибки предыдущей
▪️ Вес ошибок: Большое внимание уделяется тем данным, на которых предыдущие модели ошибались. Это позволяет концентрироваться на сложных для предсказания примерах
▪️ Комбинирование результатов: Финальный результат формируется путем взвешенного объединения предсказаний всех моделей

🌻

Когда использовать?

Бустинг особенно полезен, когда базовые алгоритмы не дают нужной точности. Например, он широко применяется в задачах классификации и регрессии, а также на соревнованиях по анализу данных, таких как Kaggle

В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.89K views18:00

Proglib.academy | IT-курсы

Что такое KNN в машинном обучении

KNN (K-Nearest Neighbors) — это один из простейших и интуитивно понятных методов машинного обучения для решения задач классификации и регрессии. Его суть заключается в том, чтобы искать "соседей" объекта и предсказывать его класс на основе классов этих соседей.

🌻

Как это работает?

▪️ Поиск соседей: Для каждого нового объекта KNN ищет K ближайших соседей на основе выбранной метрики расстояния (например, Евклидово расстояние)
▪️ Голосование: В случае классификации объект относится к тому классу, который преобладает среди его соседей
▪️ Усреднение: В задачах регрессии предсказание для объекта — это среднее значение его соседей

🌻

Когда использовать?

KNN полезен, когда данные относительно простые и их не слишком много, так как метод требует много вычислительных ресурсов при больших объемах данных. Его часто применяют в задачах, где важна интерпретируемость и легкость реализации.

В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

489 views07:03

Proglib.academy | IT-курсы

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные

👍1

517 views11:41

Proglib.academy | IT-курсы

Что такое случайные леса (Random Forests) в машинном обучении

Случайные леса — это ансамблевая методика машинного обучения, которая основана на объединении многих деревьев решений. Они используют бутстрэпинг (случайный отбор данных) и случайное выборочное разделение при построении деревьев.

🌻

Когда применять?

▪️ При решении задач классификации и регрессии, где много шума в данных
▪️ Для борьбы с переобучением модели
▪️ Когда важна точность и вы не можете позволить себе ошибки

В курсе по машинному обучению вы лучше узнаете про случайные леса:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

442 views18:02

Proglib.academy | IT-курсы

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика

👍1

441 views11:39

Proglib.academy | IT-курсы

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.46K views18:05

About

Blog

Apps

Platform