Анализ данных (Data analysis)
46.9K subscribers
2.53K photos
292 videos
1 file
2.21K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🐼 Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks 🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd


Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py


FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:

https://fireducks-dev.github.io/docs/benchmarks/

⭐️ Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4617🔥12🥱1🤨1
🧠 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

🧩 Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔧 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📊 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💡 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

📄 Исследование: https://arxiv.org/abs/2509.25084
💻 Код: https://github.com/zjunlp/DataMind
📊 Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

#AI #DataScience #LLM #Agents #OpenSource #DataAnalysis #ReinforcementLearning #NLP
12🔥8👍3