Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Библиотека SciPy

SciPy — это библиотека, предназначенная для научных и технических вычислений на языке программирования Python. Она была создана для решения задач исследования данных, оптимизации, интерполяции, интегрирования, а также многих других задач, возникающих в науке и инженерных приложениях.

Одной из функций, широко используемых в SciPy, является функция scipy.stats.norm. Она используется для работы с нормальным распределением.

В данном примере мы импортировали функцию norm из библиотеки scipy.stats. Затем мы использовали метод cdf для расчета площади под кривой нормального распределения в диапазоне от -1 до 1.
#код
👍2
Строим линейные графики с помощью Python

Визуализация данных в виде линейного графика — максимально простая задача. Достаточно передать объект в качестве аргумента функции plot() для получения графика с несколькими линиями.
#код
👍5😁1
Scikit-learn

Scikit-learn — это библиотека для машинного обучения. Scikit-learn может быть использована для решения различных задач машинного обучения, включая классификацию, регрессию, кластеризацию, а также для обработки данных и выбора наилучших признаков. Она также может использоваться для предобработки данных, визуализации и выбора модели.

В этом примере мы загружаем данные Iris и разделяем их на обучающую и тестовую выборки. Набор данных Iris - это классический набор данных в машинном обучении и статистике. Объект Iris, возвращаемый load_iris, является объектом Bunch, который очень похож на словарь (подробнее о данных здесь). Затем мы создаем классификатор K ближайших соседей и обучаем его на обучающей выборке. Наконец, мы оцениваем точность модели на тестовой выборке.
#код
3
Seaborn

Seaborn — это библиотека визуализации данных для языка программирования Python, основанная на библиотеке Matplotlib. Она предоставляет высокоуровневые интерфейсы для создания красивых и информативных статистических графиков.

С помощью функции barplot создается столбчатая диаграмма, которая показывает связь между оценками и количеством часов учебы, основанная на данных из словаря data. Порядок отображения оценок задается с помощью параметра order, а отображение графика осуществляется благодаря plt.show().

Результат работы программы представлен на втором изображении.
#код
👍4🔥1👏1
Циклический сдвиг списка на N элементов вправо

Выше приведено решение с помощью слайсов.
#код
👍10🔥2
Построение горизонтальной гистограммы с помощью seaborn

Слева представлен код для построения гистограммы, справа результат работы нашей программы.
#код
😁6👾2👍1🤯1
Catboost

CatBoost — это быстрая, масштабируемая и высокопроизводительная библиотека градиентного бустинга на деревьях решений, используемая для ранжирования, классификации, регрессии и других задач машинного обучения для Python, R, Java, C++. Поддерживает вычисления на CPU и GPU.

В этом примере мы импортируем CatBoostClassifier из catboost и создаем экземпляр классификатора с определенными параметрами. Затем мы обучаем модель на тренировочных данных и метках с помощью метода fit. После обучения мы можем использовать методы predict и predict_proba для получения предсказаний классов и вероятностей соответственно.

Результат работы кода будет зависеть от входных данных. В этом примере используются случайные данные для обучения и тестирования. В реальных ситуациях данные будут отличаться.
#код
👍11
DABL

Data Analysis Baseline Library (DABL) — это библиотека, разработанная для упрощения анализа данных и построения моделей машинного обучения.

Она предоставляет инструменты для автоматической предобработки данных, визуализации и выбора моделей. DABL основана на библиотеках, таких как pandas, scikit-learn и matplotlib.

В этом примере мы использовали DABL для анализа данных, визуализации и построения модели машинного обучения.
#код
🔥6
Python-dateutil

Библиотека python-dateutil предоставляет расширенные возможности для работы с датами и временем.

Она может использоваться для:
— Парсинга и форматирования дат;
— Выполнения арифметических операций с датами;
— Работы с часовыми поясами;
— Вычисления разницы между датами.

В примере мы используем библиотеку для получения начала и конца недели по заданной дате.

relativedelta используется для смещения даты на нужные дни недели.
MO(-1) — для получения предыдущего понедельника.
SU — для получения следующего воскресенья.
#код
👍6🔥1👏1
Geopandas

Geopandas — это библиотека для работы с геопространственными данными. Она базируется на библиотеке Pandas и интегрируется с другими инструментами геоинформатики, такими как Shapely, Fiona, PyProj.

Geopandas позволяет эффективно работать с географическими данными в виде векторных и растровых слоев.

Основные области применения:
— Картография и визуализация пространственных данных.
— Анализ и обработка данных, содержащих географическую привязку.
— Работа с геометрическими объектами: точки, линии, полигоны.
— Преобразование и проектирование геоданных.
— Пространственный анализ и геостатистика.
— Моделирование географических процессов.
— ГИС-приложения и веб-картография.
#код
👏3
Библиотека scikit-image

scikit-image — это библиотека для обработки изображений. scikit-image также удобна для применения в задачах компьютерного зрения.

Библиотека содержит множество полезных инструментов для работы с изображениями, включая:
— Фильтрация и преобразования изображений (размытие, поворот, масштабирование и т. д.).
— Сегментация изображений и анализ регионов.
— Обнаружение особых точек и линий (краев, углов, границ).
— Морфологические операции.
— Анализ текстур и цветов.
— Восстановление изображений и удаление шумов.
#код
5👍3
Создание изображения в Python

Чтобы создать новое изображение с помощью библиотеки Python Pillow PIL, используйте метод Image.nеw().

В этом примере мы создаем новое изображение в режиме RGB с размером (200, 200).

Мы не будем указывать цвет, поэтому методы new() считают значение цвета по умолчанию 0 – для каналов RGB будет черным цветом.

Подробнее с методом можно ознакомиться здесь.
#код
👍3