Proglib.academy | IT-курсы

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Что произойдёт, если использовать LabelEncoder с линейным алгоритмом?

▶️ Начнём с того, что такое LabelEncoder.
Это один из самых простых способов закодировать категории. Допустим, у вас есть три категории: «Лондон», «Париж» и «Москва». Тогда вы просто заменяете эти строковые значения на 0, 1 и 2.

В документации scikit-learn написано, что LabelEncoder кодирует целевые метки значениями из диапазона от 0 до n_classes-1 (где n_classes — количество классов). То есть алгоритм предлагается использовать в основном для кодирования целевых меток. Технически его, конечно, можно применять для кодирования нецелевых признаков. Но тут могут возникнуть проблемы.

✍️ Сама суть LabelEncoder способствует созданию избыточных зависимостей в данных. Например, после преобразования получилось, что по некоторому признаку значение объекта Volvo равно 6, а BMW — 1. Можно интерпретировать это как то, что Volvo в 6 раз в чём-то превосходит BMW. Однако в исходных данных таких зависимостей не было.

При работе с категориальными переменными для линейных моделей можно, например, использовать One-Hot Encoding.

#машинное_обучение

👍1

764 views12:02

Proglib.academy | IT-курсы

Что вы знаете про критерий Шовене?

Он позволяет найти выбросы в данных. Согласно критерию Шовене, значение p i-ое является выбросом, если выполнено неравенство, указанное на картинке выше. p с чертой — это среднее. А в знаменателе стоит отклонение. n — это объём выборки. Функция erfc является дополнением к функции ошибок (её вид, впрочем, неважен). С возрастанием аргумента, значение функции erfc стремится к нулю. То есть чем меньше значение функции, тем сильнее p i-ое отстоит от среднего значения, а значит является выбросом.

Фактически, использование критерия Шовене представляет собой итерационную процедуру, позволяющую найти все аномалии в данных за несколько шагов.

Подтяните свои знания о машинном обучении вместе с нашим курсом:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1👾1

573 views07:05

Proglib.academy | IT-курсы

Что вы знаете про критерий Дикки-Фуллера?

Критерий Дикки-Фуллера используется для проверки стационарности временных рядов. Этот тест позволяет определить, есть ли в данных временного ряда единичный корень, что означает наличие тренда или сезонности.

Тест использует регрессионный анализ для оценки автокорреляции и значений критических уровней. Если p-value меньше определённого уровня значимости (например, 0.05), то можно отвергнуть нулевую гипотезу и сделать вывод о стационарности ряда.

Критерий Дикки-Фуллера часто используется в анализе временных рядов, таких как финансовые данные или данные об изменениях температуры, где важно выявить закономерности для прогнозирования будущих значений.

Подтяните свои знания о машинном обучении вместе с нашим курсом:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

3.08K views18:01

Proglib.academy | IT-курсы

Что вы знаете про ансамблевые методы?

Когда речь заходит о машинном обучении, многие сразу вспоминают нейронные сети или деревья решений. Однако есть особый класс методов, способных значительно улучшить качество моделей — ансамблевые методы.

Ансамблевые методы — это подход в машинном обучении, при котором несколько моделей (часто простых) объединяются для получения более точного и надежного результата. Основная идея в том, что объединение слабых моделей в определенной структуре может дать гораздо более мощную «супермодель».

🌻

Почему ансамблевые методы эффективны?

Ансамбли используют разнообразие: разные модели могут компенсировать ошибки друг друга. Они снижают вероятность переобучения и позволяют обрабатывать сложные паттерны данных.

Подтяните свои знания о машинном обучении вместе с нашим курсом:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

415 views18:01

Proglib.academy | IT-курсы

Что такое Бустинг в машинном обучении

Бустинг — это один из мощных методов повышения качества моделей машинного обучения. Его цель — объединение нескольких слабых моделей (обычно простых алгоритмов) для создания одной сильной модели, которая улучшает точность предсказаний.

🌻 Как это работает?

▪️ Итеративное обучение: Модели обучаются поочередно. Каждая следующая модель стремится исправить ошибки предыдущей
▪️ Вес ошибок: Большое внимание уделяется тем данным, на которых предыдущие модели ошибались. Это позволяет концентрироваться на сложных для предсказания примерах
▪️ Комбинирование результатов: Финальный результат формируется путем взвешенного объединения предсказаний всех моделей

🌻

Когда использовать?

Бустинг особенно полезен, когда базовые алгоритмы не дают нужной точности. Например, он широко применяется в задачах классификации и регрессии, а также на соревнованиях по анализу данных, таких как Kaggle

В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.89K views18:00

Proglib.academy | IT-курсы

Что такое KNN в машинном обучении

KNN (K-Nearest Neighbors) — это один из простейших и интуитивно понятных методов машинного обучения для решения задач классификации и регрессии. Его суть заключается в том, чтобы искать "соседей" объекта и предсказывать его класс на основе классов этих соседей.

🌻

Как это работает?

▪️ Поиск соседей: Для каждого нового объекта KNN ищет K ближайших соседей на основе выбранной метрики расстояния (например, Евклидово расстояние)
▪️ Голосование: В случае классификации объект относится к тому классу, который преобладает среди его соседей
▪️ Усреднение: В задачах регрессии предсказание для объекта — это среднее значение его соседей

🌻

Когда использовать?

KNN полезен, когда данные относительно простые и их не слишком много, так как метод требует много вычислительных ресурсов при больших объемах данных. Его часто применяют в задачах, где важна интерпретируемость и легкость реализации.

В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

489 views07:03

Proglib.academy | IT-курсы

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные

👍1

517 views11:41

Proglib.academy | IT-курсы

Что такое случайные леса (Random Forests) в машинном обучении

Случайные леса — это ансамблевая методика машинного обучения, которая основана на объединении многих деревьев решений. Они используют бутстрэпинг (случайный отбор данных) и случайное выборочное разделение при построении деревьев.

🌻

Когда применять?

▪️ При решении задач классификации и регрессии, где много шума в данных
▪️ Для борьбы с переобучением модели
▪️ Когда важна точность и вы не можете позволить себе ошибки

В курсе по машинному обучению вы лучше узнаете про случайные леса:

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

442 views18:02

Proglib.academy | IT-курсы

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика

👍1

441 views11:39

Proglib.academy | IT-курсы

🔵

Базовые модели ML и приложения

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.46K views18:05

Proglib.academy | IT-курсы

📈

Что такое рекуррентные нейронные сети (RNN) в машинном обучении

Рекуррентные нейронные сети — это вид нейросетей, в которых связи между элементами образуют направленную последовательность. Это позволяет обрабатывать серии событий во времени или последовательные пространственные цепочки.

Они используются преимущественно для задач, где нечто цельное состоит из ряда объектов, например, при распознавании рукописного текста или речи.

🌻 Пример из жизни

Предсказание температуры на завтра. RNN учитывает не только текущую облачность и ветер, но и температуру вчера.

⭐

Чем круче, тем сложнее

Если нейросети нужно помнить несколько предыдущих значений, формула состояния меняется. Например: S[1] = S[1] + w[51] * y. То есть сеть добавляет изменения, а не перезаписывает всё.

🔵 Подтяните свои знания о машинном обучении вместе с нашим курсом «Базовые модели ML и приложения»

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

391 views18:00

Proglib.academy | IT-курсы

📊

Что такое LSTM в машинном обучении

LSTM (Long Short-Term Memory) — это вид рекуррентной нейронной сети (RNN), созданный для работы с последовательными данными, такими как текст, временные ряды или видео. Она решает проблему исчезающего градиента, с которой сталкиваются стандартные RNN, и запоминает долгосрочные зависимости в данных.

➡️ Как это работает

LSTM состоит из ячеек памяти, которые используют гейты, чтобы управлять потоком информации.

1️⃣ Forget Gate (забывающее): решает, какую часть информации удалить из ячейки.

2️⃣ Input Gate (входное): определяет, какие новые данные сохранить в памяти.

3️⃣ Output Gate (выходное): выбирает, что передать в следующую ячейку.

Благодаря этим гейтам, LSTM может хранить информацию на протяжении длительных временных интервалов.

🔵 Подтяните свои знания о машинном обучении вместе с нашим курсом «Базовые модели ML и приложения»

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

435 views18:00

Proglib.academy | IT-курсы

📊 Как обучают нейросети в машинном обучении

В машинном обучении есть два ключевых подхода:

➡️ Обучение с учителем (Supervised Learning)

— Даем модели готовые примеры с правильными ответами.
— Она анализирует их и учится предсказывать верные результаты.
— Работает для задач типа распознавания лиц, переводов, рекомендаций.

➡️ Обучение без учителя (Unsupervised Learning)

— Никаких готовых ответов! Модель сама ищет закономерности в данных.
— Помогает находить группы, аномалии и скрытые связи.
— Используется в кластеризации, анализе данных и поиске инсайтов.

🔵 Подтяните свои знания о машинном обучении вместе с нашим курсом «Базовые модели ML и приложения»

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

444 views18:02

Proglib.academy | IT-курсы

📊 Что такое регрессия в машинном обучении

Регрессия — это когда по исходным данным мы предсказываем новые цифры.

➡️ Зачем это нужно

Регрессия помогает выявлять зависимости между переменными и строить прогнозы.

➡️ Как это работает

Алгоритм обучается на прошлых данных, находит закономерности и строит модель, которая может делать прогнозы для новых входных данных.

⭐ Примеры

▪️ Определение стоимости недвижимости на основе площади, расположения и других факторов.

▪️ Прогнозирование продаж товаров в зависимости от сезона и спроса.

▪️ Оценка уровня дохода по возрасту, образованию и опыту работы.

▪️ Анализ влияния температуры на потребление электроэнергии.

🔵 Подтяните свои знания о машинном обучении вместе с нашим курсом «Базовые модели ML и приложения»

#машинное_обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2🙏1

376 views18:04

About

Blog

Apps

Platform