Machinelearning

Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks

🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd

Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py

FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/

⭐️

Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤83👍60🔥19🤣16🤔11🥰3🥱3🙊3😎2

14.2K views06:06

Machinelearning

🚀 Data Fusion 2025 – ключевая конференция в сфере искусственного интеллекта и больших данных.

📅 Дата: 16-17 апреля 2025
📍 Место встречи: Москва, технологический кластер «Ломоносов»
🧠 Спикеры: 200+ экспертов от науки, бизнеса и государства

Что вас ждет?

🔹7 треков и 70+ сессий, посвященных передовым исследованиям и разработкам
🔹Кейс-стади и воркшопы о DS в различных сферах бизнеса от финтеха и промышленности до медицины
🔹Нетворкинг: на площадке вы можете задать вопрос напрямую ученым с мировым именем или коллегам из других отраслей.

🔗 Регистрируйтесь прямо сейчас – https://data-fusion.ru/. Участие в конференции — бесплатное.

#AI #ML #DataFusion #Конференция #IT #bigdata #datascience

*AI — искусственный интеллект
*DS — наука о методах анализа данных
*Нетворкинг — полезные связи

❤15🤨15👍6🔥5

15.7K views12:03

Machinelearning

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

СuML от NVIDIA: Scikit-learn на скорости GPU – без единой строчки нового кода!

Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!

Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU! 🔥

✨ Как это работает?

Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти.

Теперь, когда вы вызываете, например, KNeighborsClassifier или PCA из sklearn:

▶️Патч проверяет, есть ли у вас GPU NVIDIA.
▶️Проверяет, есть ли в cuml быстрая GPU-версия этого алгоритма.
▶️Если да – запускает ускоренную версию на GPU! 🏎️
▶️Если нет (нет GPU или алгоритм не поддерживается) – спокойно запускает обычную CPU-версию scikit-learn.

Ключевые преимущества:

✔️

Нулевые изменения кода: Ваш scikit-learn код остается прежним. Добавляете только 2 строчки:
import cuml.patch и cuml.patch.apply().

✔️

Колоссальное ускорение: Получите прирост производительности на порядки для поддерживаемых алгоритмов (KNN, PCA, линейные модели, Random Forest (инференс), UMAP, DBSCAN, KMeans и др.) за счет мощи GPU.
✔️Автоматическое переключение между GPU и CPU. Ваш скрипт будет работать в любом случае.

Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.

👇 Как использовать:

Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):


python 
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend

Добавьте в начало скрипта:


import cuml.patch
cuml.patch.apply()

Используйте scikit-learn как обычно!

Попробуйте и почувствуйте разницу! 😉

▪Блог-пост
▪Colab
▪Github
▪Ускоряем Pandas

@ai_machinelearning_big_data

#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍80🔥45❤10💘3😁1

26.9K viewsedited 08:40

Machinelearning

👍

Marimo — это блокнот с реактивным исполнением кода, обеспечивающий автоматическое обновление зависимых ячеек при изменении данных или кода.

По сути это улучшенная альтернатива Jupyter.

Как работает Marimo?

▪️ При изменении значения переменной или взаимодействии с UI-элементом, Marimo автоматически выполняет все ячейки, зависящие от этой переменной, поддерживая консистентность кода и результатов.

Отличия от Jupyter:

▪️ Формат файлов: Marimo сохраняет блокноты как чистые Python-файлы (.py), облегчая интеграцию с системами контроля версий, в отличие от Jupyter, использующего формат JSON (.ipynb).

▪️ Реактивность: В Marimo изменение данных автоматически обновляет все связанные ячейки, тогда как в Jupyter это требует ручного выполнения.

Основные преимущества Marimo:

▪️ Интерактивность: Встроенные UI-элементы, такие как слайдеры и выпадающие списки, синхронизируются с кодом без необходимости в дополнительных настройках.

▪️ Отсутствие скрытых состояний и детерминированный порядок выполнения обеспечивают надежность результатов.

▪️ Поддерживает возможность исполнять блокноты как скрипты, импортировать их в другие проекты и разворачивать как веб-приложения.

Marimo представляет собой мощный инструмент для разработчиков и исследователей, стремящихся к более эффективной и надежной работе с Python-блокнотами.

В галерее Marimo представлены блокноты на все случае жизни, созданные сообществом, демонстрирующие различные возможности и сценарии использования Marimo.

🟡

🟡

🟡

🟡

🟡

Урок по работе с Marimo

@ai_machinelearning_big_data

#marimo #ds #ml #tools #opensource #datascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍52🔥14❤5🤔5

14K viewsedited 09:43

Machinelearning

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

🐼

Pandas тормозит на больших данных?

NVIDIA показала, как ускорить его в 40 раз — без переписывания кода.

Команда NVIDIA провела эксперимент с 18 миллионами строк данных с фондовых рынков: они выполнили типичный анализ данных с помощью pandas на CPU, а затем тоже самое — на GPU, используя cudf.pandas.

Для примеры были взяты:
📉 Скользящие средние (50D и 200D)
📅 Недельная статистика закрытия рынков
🧊 В общей сложности ~18M строк

Результат впечатляет : удалось добиться**ускорения обработки данных в 20–40 раз

Код скрипта не менялся вообще — тот же pandas, но на GPU.

Это один из примеров, где ускорение достигается без переписывания логики кода.

🟡 Потестить самому можно в Colab
🟡 Другие примеры с кодом — здесь

@ai_machinelearning_big_data

#datascience #ml #nvidia #gpu #pandas #python

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤124👍40🔥18😁3🤔3🤣2

34.2K viewsedited 09:19

Machinelearning

✔️

Подборка полезных бесплатных курсов и гайдов на выходные.

🖥 Microsoft представила свежий цикл лекций по Python и и ИИ.

• Содержание: Курс включает 9 лекций, дополненных видео, подробными презентациями и примерами кода. Цикла - обучение разработке ИИ-агентов доступен написан понятно, даже для новичков в программирование.
• Темы: В лекциях рассматриваются такие темы, такие как RAG (Retrieval-Augmented Generation), эмбеддинги, агенты и протокол MCP.

👉

Курс

💡

Гарвардский курс по машинному обучению

Культовый трек CS 249 превратили в интерактивный учебник - и это, пожалуй, один из лучших стартов для инженеров, которые хотят делать реальные ML-системы, а не просто играться с моделями.

• Вся база по ML: объясняют фундамент с нуля, нужно только знание Python
• Проектирование систем и инженерия данных
• Подготовка датасетов, MLOps и мониторинг
• Развёртывание ИИ в IoT и продакшене

Это практический курс: не о формулах, а о том, как внедрять ML так, чтобы он приносил бизнесу прибыль.
Если хочешь понять, как модели живут в проде - идеальный вариант для старта.

👉

Курс

🖥

Создай своего Bash-агента с NVIDIA Nemotron за 1 час

NVIDIA показала, как собрать AI-агента, который понимает твои запросы на естественном языке и сам выполняет команды Bash.
В основе модель Nemotron Nano 9B v2: компактная, быстрая, идеально подходит для локального эксперимента.

Агент умеет:
- распознавать команды на естественном языке («создай папку», «покажи файлы»),
- превращать эти команды в рабочие Bash-срипты
- спрашивать подтверждение перед выполнением.

Весь код занимает ~200 строк Python, работает через FastAPI и LangGraph.
Можно расширить под DevOps, Git-операции, анализ логов или управление сервером.

👉

Гайд

⚡️

Kaggle Learn: интерактивные мини-курсы по Python, Data Science и машинному обучению.
Полностью бесплатно и максимально практично.

Что внутри:
• Python, Pandas, визуализация
• Основы машинного обучения и фичеринжиниринг
• Подготовка данных и работа с моделями

Практика без лишней теории учишься и сразу применяешь.

👉

Курс

🖥

Гайд по шардингу баз данных от PlanetScale

Вы узнаете, как масштабировать базы данных через шардинг - разбиение данных по серверам для роста производительности и отказоустойчивости.

Главное:
• Шардинг нужен, когда одна база больше не справляется с нагрузкой.
• Есть два популярных подхода — по диапазону (range) и по хешу (hash).
• Важно выбрать стабильный ключ (например, user_id) и избегать кросс-шардовых запросов.
• Прокси-слой немного увеличивает задержку, но даёт масштабируемость.

Отличный материал, если хочешь понять, как строят системы уровня YouTube. А здесь много базы по SQL
Читать

🧠

60 готовых проектов по генеративному ИИ

Список из 60 проектов на GitHub с открытым кодом по генеративному ИИ 0от текстовых моделей до аудио и видео.

Каждый проект - с описанием и ссылкой на репозиторий. Можно выбрать идею, запустить локально и собрать своё AI-портфолио.

👉

Github

👉 Еще больше полезного.

@ai_machinelearning_big_data

#AI #MachineLearning #DataScience #ML #ИИ #freecourses

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍98❤44🔥18🗿5💋1

44.3K viewsedited 10:06

About

Blog

Apps

Platform