Data Science, Machine Learning, BI Explained in a Amazing Few Pictures | #DataScience #MachineLearning #RT http://bit.ly/2gRTxXj
Datasciencecentral
Data Science, Machine Learning, BI Explained in a Amazing Few Pictures
Guest blog post by Rubens Zimbres, PhD.
This article brings images from my work modeling with Mathematica, my experience as a Business Analyst and also my doct…
This article brings images from my work modeling with Mathematica, my experience as a Business Analyst and also my doct…
24 Data Science, R, Python, Excel, and Machine Learning Cheat Sheets | #DataScience #MachineLearning #RT http://bit.ly/2mAVd7m
Datasciencecentral
24 Data Science, R, Python, Excel, and Machine Learning Cheat Sheets
Here's a good starting point. You can find many additional references here (Python, Excel, Spark, R, Deep Learning, AI, SQL, NoSQL, Graph Databses, Visualizati…
Multi-Class Text Classification with Scikit-Learn #MachineLearning #DataScience http://bit.ly/2EH5NUc
Towards Data Science
Multi-Class Text Classification with Scikit-Learn
There are lots of applications of text classification in the commercial world. For example, news stories are typically organized by topics…
Forwarded from Анализ данных (Data analysis)
Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.
Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.
Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.
Я уже давно работаю с FireDucks
Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.
Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :
import fireducks.pandas as pd
Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:
python
$ python -mfireducks.imhook yourfile[.]py
FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.
Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.
FireDucks побеждает с отрывом.
⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks
⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo
⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb
⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/
#fireducks #Pandas #dataanalysis #datascience #python #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤83👍60🔥19🤣16🤔11🥰3🥱3🙊3😎2
🚀 Data Fusion 2025 – ключевая конференция в сфере искусственного интеллекта и больших данных.
📅 Дата: 16-17 апреля 2025
📍 Место встречи: Москва, технологический кластер «Ломоносов»
🧠 Спикеры: 200+ экспертов от науки, бизнеса и государства
Что вас ждет?
🔹7 треков и 70+ сессий, посвященных передовым исследованиям и разработкам
🔹Кейс-стади и воркшопы о DS в различных сферах бизнеса от финтеха и промышленности до медицины
🔹Нетворкинг: на площадке вы можете задать вопрос напрямую ученым с мировым именем или коллегам из других отраслей.
🔗 Регистрируйтесь прямо сейчас – https://data-fusion.ru/. Участие в конференции — бесплатное.
#AI #ML #DataFusion #Конференция #IT #bigdata #datascience
*AI — искусственный интеллект
*DS — наука о методах анализа данных
*Нетворкинг — полезные связи
📅 Дата: 16-17 апреля 2025
📍 Место встречи: Москва, технологический кластер «Ломоносов»
🧠 Спикеры: 200+ экспертов от науки, бизнеса и государства
Что вас ждет?
🔹7 треков и 70+ сессий, посвященных передовым исследованиям и разработкам
🔹Кейс-стади и воркшопы о DS в различных сферах бизнеса от финтеха и промышленности до медицины
🔹Нетворкинг: на площадке вы можете задать вопрос напрямую ученым с мировым именем или коллегам из других отраслей.
🔗 Регистрируйтесь прямо сейчас – https://data-fusion.ru/. Участие в конференции — бесплатное.
#AI #ML #DataFusion #Конференция #IT #bigdata #datascience
*AI — искусственный интеллект
*DS — наука о методах анализа данных
*Нетворкинг — полезные связи
❤15🤨15👍6🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!
Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU!
✨ Как это работает?
Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова
cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти.Теперь, когда вы вызываете, например,
KNeighborsClassifier или PCA из sklearn:Ключевые преимущества:
2 строчки:import cuml.patch и cuml.patch.apply().Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.
👇 Как использовать:
Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):
python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend
Добавьте в начало скрипта:
import cuml.patch
cuml.patch.apply()
Используйте scikit-learn как обычно!
Попробуйте и почувствуйте разницу! 😉
▪Блог-пост
▪Colab
▪Github
▪Ускоряем Pandas
@ai_machinelearning_big_data
#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍80🔥45❤10💘3😁1
По сути это улучшенная альтернатива Jupyter.
Как работает Marimo?
▪️ При изменении значения переменной или взаимодействии с UI-элементом, Marimo автоматически выполняет все ячейки, зависящие от этой переменной, поддерживая консистентность кода и результатов.
Отличия от Jupyter:
▪️ Формат файлов: Marimo сохраняет блокноты как чистые Python-файлы (
.py), облегчая интеграцию с системами контроля версий, в отличие от Jupyter, использующего формат JSON (.ipynb). ▪️ Реактивность: В Marimo изменение данных автоматически обновляет все связанные ячейки, тогда как в Jupyter это требует ручного выполнения.
Основные преимущества Marimo:
▪️ Интерактивность: Встроенные UI-элементы, такие как слайдеры и выпадающие списки, синхронизируются с кодом без необходимости в дополнительных настройках.
▪️ Отсутствие скрытых состояний и детерминированный порядок выполнения обеспечивают надежность результатов.
▪️ Поддерживает возможность исполнять блокноты как скрипты, импортировать их в другие проекты и разворачивать как веб-приложения.
Marimo представляет собой мощный инструмент для разработчиков и исследователей, стремящихся к более эффективной и надежной работе с Python-блокнотами.
В галерее Marimo представлены блокноты на все случае жизни, созданные сообществом, демонстрирующие различные возможности и сценарии использования Marimo.
@ai_machinelearning_big_data
#marimo #ds #ml #tools #opensource #datascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥14❤5🤔5
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA показала, как ускорить его в 40 раз — без переписывания кода.
Команда NVIDIA провела эксперимент с 18 миллионами строк данных с фондовых рынков: они выполнили типичный анализ данных с помощью pandas на CPU, а затем тоже самое — на GPU, используя
cudf.pandas.Для примеры были взяты:
🧊 В общей сложности ~18M строк
Результат впечатляет : удалось добиться**ускорения обработки данных в 20–40 раз
Код скрипта не менялся вообще — тот же pandas, но на GPU.
Это один из примеров, где ускорение достигается без переписывания логики кода.
@ai_machinelearning_big_data
#datascience #ml #nvidia #gpu #pandas #python
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤124👍40🔥18😁3🤔3🤣2
• Содержание: Курс включает 9 лекций, дополненных видео, подробными презентациями и примерами кода. Цикла - обучение разработке ИИ-агентов доступен написан понятно, даже для новичков в программирование.
• Темы: В лекциях рассматриваются такие темы, такие как RAG (Retrieval-Augmented Generation), эмбеддинги, агенты и протокол MCP.
Культовый трек CS 249 превратили в интерактивный учебник - и это, пожалуй, один из лучших стартов для инженеров, которые хотят делать реальные ML-системы, а не просто играться с моделями.
• Вся база по ML: объясняют фундамент с нуля, нужно только знание Python
• Проектирование систем и инженерия данных
• Подготовка датасетов, MLOps и мониторинг
• Развёртывание ИИ в IoT и продакшене
Это практический курс: не о формулах, а о том, как внедрять ML так, чтобы он приносил бизнесу прибыль.
Если хочешь понять, как модели живут в проде - идеальный вариант для старта.
NVIDIA показала, как собрать AI-агента, который понимает твои запросы на естественном языке и сам выполняет команды Bash.
В основе модель Nemotron Nano 9B v2: компактная, быстрая, идеально подходит для локального эксперимента.
Агент умеет:
- распознавать команды на естественном языке («создай папку», «покажи файлы»),
- превращать эти команды в рабочие Bash-срипты
- спрашивать подтверждение перед выполнением.
Весь код занимает ~200 строк Python, работает через FastAPI и LangGraph.
Можно расширить под DevOps, Git-операции, анализ логов или управление сервером.
Полностью бесплатно и максимально практично.
Что внутри:
• Python, Pandas, визуализация
• Основы машинного обучения и фичеринжиниринг
• Подготовка данных и работа с моделями
Практика без лишней теории учишься и сразу применяешь.
Вы узнаете, как масштабировать базы данных через шардинг - разбиение данных по серверам для роста производительности и отказоустойчивости.
Главное:
• Шардинг нужен, когда одна база больше не справляется с нагрузкой.
• Есть два популярных подхода — по диапазону (range) и по хешу (hash).
• Важно выбрать стабильный ключ (например, user_id) и избегать кросс-шардовых запросов.
• Прокси-слой немного увеличивает задержку, но даёт масштабируемость.
Отличный материал, если хочешь понять, как строят системы уровня YouTube. А здесь много базы по SQL
Читать
Список из 60 проектов на GitHub с открытым кодом по генеративному ИИ 0от текстовых моделей до аудио и видео.
Каждый проект - с описанием и ссылкой на репозиторий. Можно выбрать идею, запустить локально и собрать своё AI-портфолио.
👉 Еще больше полезного.
@ai_machinelearning_big_data
#AI #MachineLearning #DataScience #ML #ИИ #freecourses
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍98❤44🔥18🗿5💋1