Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Polars теперь с поддержкой GPU — ускорение до 70%

Библиотека Polars получила новый GPU-движок на базе NVIDIA RAPIDS cuDF.

Это значит, что тяжёлые аналитические пайплайны теперь можно прогонять в разы быстрее, используя параллельную обработку данных на GPU.

✔️ В бета-версии уже поддерживаются основные операции
✔️ Ускорение до 70% по сравнению с CPU-исполнением
✔️ Отлично подходит для задач работы с большими датасетами и аналитических воркфлоу

🔗

Подробнее в посте

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍1

1.99K views18:37

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📊 Rye Tables vs Python/Pandas: новый взгляд на работу с табличными данными

Если вы когда-то фильтровали CSV в Pandas или писали вложенные циклы в чистом Python, то вам будет любопытно взглянуть на подход Rye.

Rye — небольшой язык, вдохновлённый Rebol и Factor. Его уникальная фишка — Tables: неизменяемая, "первоклассная" структура данных для работы с таблицами.

Как это работает:
— Таблицы обрабатываются чистыми функциями
— Поддерживаются пайплайны и композиция выражений
— Задачи по обработке данных превращаются в компактные цепочки операций

Статья показывает три подхода на одинаковых примерах:
🔎 Rye Tables
🔎 Python + Pandas
🔎 Чистый Python (без библиотек)

🎌

Полный разбор — с кодом и примерами трансформаций

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4

1.76K views09:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👉 Kite — современная панель управления Kubernetes

Ищете лёгкий и удобный способ управлять Kubernetes-кластерами?

Kite — это современный дашборд, который сочетает в себе:
🟠 интуитивный интерфейс,
🟠 реальные метрики в реальном времени,
🟠 управление всеми ресурсами,
🟠 поддержку мультикластеров,
🟠 и приятный UX без перегруза.

🔥 Если Kubernetes — ваш рабочий инструмент, Kite точно стоит попробовать.

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥1

1.62K viewsedited 18:45

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:01

⚡️ Бесплатный вебинар — ИИ-агенты: новая фаза развития AI

24 сентября в 19:00 МСК состоится бесплатный вебинар с Максимом Шаланкиным — Data Science Team Lead в финтех-команде MWS, а познакомиться с ним ближе можно в его тг-канале.

Тема:

«ИИ-агенты: новая фаза развития искусственного интеллекта».

На вебинаре разберёмся, почему агенты — это следующий шаг после ChatGPT, чем они отличаются от обычных моделей и как уже приносят бизнесу ROI до 80%. А дальше я покажу, как эта тема ложится в наш курс по ИИ-агентам, который разработан под руководством Никиты Зелинского.

Подробности рассказываем в гс выше — включай, чтобы не пропустить.

1.63K views19:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Memory Graph — визуализация структуры данных в Python

Для лучшего понимания кода и отладки бывает полезно «увидеть» объекты в памяти, а не только смотреть на их значения.

Пакет memory_graph делает именно это — строит граф памяти для любых структур данных.

Пример:

import memory_graph as mg

class My_Class:
    def init(self, x, y):
        self.x = x
        self.y = y

data = [range(1, 2), (3, 4), {5, 6}, {7: 'seven', 8: 'eight'}, My_Class(9, 10)]
mg.show(data)

📌 Memory Graph поддерживает множество типов данных: списки, кортежи, множества, словари, классы и пользовательские объекты.

Результат — удобная визуализация связей между объектами, что помогает:
— понять структуру данных в проекте
— отлаживать сложные зависимости
— обучать и объяснять Python-объекты начинающим

📱

Ссылка на репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8

1.7K views09:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁11🔥1

1.64K views13:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🖥 Инфраструктура и ускорение
— Efficient Multi-GPU LLM Inference — NVIDIA представила NVLink пятого поколения, ускоряющий работу с LLM на триллион параметров.
— Introduction to Gluon — новый язык для GPU-программирования. Позволяет разрабатывать высокопроизводительные ядра с точным контролем над железом.

🤖 LLM и AI-исследования
— Breaking GPT-OSS — разбор устойчивости модели gpt-oss к jailbreak-атакам.
— Robot GPT: где взять столько данных? — для обучения «роботизированного GPT» могут понадобиться десятки тысяч лет сбора данных.
— Как запустить свою LLM — практическое руководство: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang. Всё, что нужно для локального инференса.

📚 Обучение и вводные материалы
— Градиентный спуск для новичков — простое объяснение: почему ошибки — это шаги к оптимизации.
— Простейшая нейросеть на Python — пошаговое объяснение без сложных терминов.
— Снятие проклятия размерности — как правильно изучать свои данные и работать с многомерными признаками.
— Эмбеддинги для начинающих — что это, как применяются и зачем нужны.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

1.77K views10:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1🔥1

1.72K views08:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

33%

(1, 4) (2, 1) (2, 4)

10%

(1, 1) (4, 1) (1, 2) (4, 2)

321 voters1.63K views08:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Не пропустите событие осени для AI-комьюнити

24 сентября, 19:00 Мск — бесплатный вебинар с Максимом Шаланкиным «ИИ-агенты: новая фаза развития искусственного интеллекта»

😤 Пока все спорят, «боты это или нет», мы покажем, как работают настоящие агенты: с планированием, инструментами и памятью. За час Максим разберёт:
— почему ИИ-агенты сейчас на пике инвестиций
— чем они отличаются от ChatGPT и обычных моделей
— цикл агента: восприятие → планирование → действие → обучение
— живое демо простого агента
— как бизнес уже получает ROI до 80%

⚡️ Хотите спросить у Максима всё, что обычно остаётся «за кадром»? Ловите шанс — только в прямом эфире.

⏰ Мест мало, регистрация закроется, как только забьём комнату

1.66K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Универсальная шпаргалка по работе с данными

Всё, что нужно для анализа данных — в одном месте.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2👏1

1.8K views17:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📘 Книга: Probabilistic Machine Learning

Книга Probabilistic Machine Learning — продолжение знаменитого Machine Learning: A Probabilistic Perspective.

Что внутри:
➡️ систематизация ключевых идей ML последних 30 лет,
➡️ от MCMC и вариационного вывода до современных генеративных моделей и диффузионных процессов,
➡️ параллели между графовыми моделями и Bayesian deep learning,
➡️ глубокий, но при этом доступный стиль изложения.

🔗

Ссылка на книгу

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🤩2👍1

1.75K views12:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Шпаргалка по функциям активации нейронных сетей

Функции активации определяют, как нейрон реагирует на вход. Быстрая справка:
🟠Sigmoid: σ(x) = 1 / (1 + exp(-x)) — [0,1], часто для вероятностей.
🟠Tanh: tanh(x) — [-1,1], центрированная версия сигмоиды.
🟠ReLU: max(0, x) — простая и быстрая, популярна в скрытых слоях.
🟠Leaky ReLU: x if x>0 else αx — решает проблему «мертвых нейронов».
🟠ELU: экспоненциальная ReLU, сглаживает негативные значения.
🟠Softmax: exp(x_i)/Σexp(x_j) — для классификации, даёт распределение вероятностей.
🟠Swish / Mish: современные гладкие функции, улучшают обучение глубоких сетей.

💡 Использование правильной функции активации критично для скорости сходимости и качества модели.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥1

1.8K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗ Сегодня премьера

В 19:00 МСК стартует бесплатный вебинар с Максимом Шаланкиным — «ИИ-агенты: новая фаза развития искусственного интеллекта».

В программе:
— почему агенты ≠ чат-боты;
— живое демо простого агента;
— и как эта тема встроена в курс, который разработан под руководством Никиты Зелинского.

⏰ Это прямой эфир: подключиться можно через лендинг курса.

1.63K views09:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🎯 Нужно ли дообучать embedding-модель

(Спойлер: скорее всего, нет)

Прежде чем браться за fine-tuning, спросите себя:
❓ Проблема реально в нехватке доменных знаний, или же в настройке пайплайна.

Проверьте сначала:
😶 Какой метод чанкования используется? Попробуйте late chunking.
😶 Нужны ли точные совпадения по ключевым словам? Рассмотрите гибридный поиск.
😶 Текущая модель не ловит контекст? Возможно, поможет модель с большим числом измерений.

⚡️ Fine-tuning имеет смысл только тогда, когда модель реально проваливается именно на доменных семантических связях.

Как работает fine-tuning embedding-моделей:
😶 Используется контрастивное обучение, где положительные пары притягиваются, а отрицательные — отталкиваются.
😶 Популярные функции потерь:
→ Multiple Negatives Ranking Loss (простые пары, негативы берутся из батча)
→ Triplet Loss (требует аккуратно подобранных триплетов)
→ Cosine Embedding Loss (учёт градаций схожести)

💰 Хорошая новость: fine-tuning стоит значительно дешевле, чем pre-training. Достаточно 1k–5k качественных примеров для узких доменов и 10k+ для сложных терминологий.

➡️

Подробная статья по теме

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥3❤1

1.77K viewsedited 10:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁25👍3

1.76K views18:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📶

Как работает HNSW: секрет быстрой работы с векторами

Hierarchical navigable small world (HNSW) — алгоритм, лежащий в основе большинства современных векторных баз данных.

Разбираемся просто:

🏗 Построение индекса

HNSW создаёт иерархию слоёв графов:
— Верхние слои: только дальние связи
— Нижний слой: все векторы, плотные локальные связи

🔎На каждом следующем слое вниз добавляются больше векторов и коротких связей

🔍 Как работает поиск

Представьте это как путешествие:
— Верхний слой = дальний перелёт → приблизиться к цели
— Средние слои = поезд → попасть в нужный район
— Нижний слой = велосипед → достичь точного вектора

🔎 Каждый слой направляет поиск на следующем, пропуская нерелевантные данные без необходимости оценивать всё.

⚙️ Важные параметры
— maxConnections: плотность графа (больше = точнее, но медленнее)
— ef/efConstruction: размер «динамического списка» при поиске/индексации (больше = точнее, но медленнее)
— distance: метрика для сравнения векторов

💡 В итоге: HNSW — это многомерный skip-list, который быстро находит правильное «соседство» перед локальным детальным поиском. Именно поэтому он работает так быстро даже с миллиардами векторов.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2

1.65K views12:28

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄

Новый релиз: PostgreSQL 18

PostgreSQL Global Development Group объявила релиз PostgreSQL 18 — новой версии самой продвинутой open-source базы данных в мире.

Основные улучшения:
— Новый асинхронный I/O — до 3× быстрее чтение с диска
— Быстрые апгрейды — сохраняются статистики планировщика, ускоряя работу после обновления
— Быстрее запросы — skip scan для B-tree, OR-оптимизация, параллельные сборки индексов
— Разработка проще — виртуальные generated columns, поддержка UUIDv7 для индексируемых UUID, temporal constraints
— Текст и поиск — новый PG_UNICODE_FAST collation, улучшенные LIKE и case-insensitive функции
— Безопасность — OAuth 2.0, SCRAM и SHA-2, TLS 1.3 шифры, deprecate md5

Репликация и наблюдаемость:
▶️ Логическая репликация с логами конфликтов
▶️ Параллельное применение транзакций
▶️ Расширенная статистика VACUUM и EXPLAIN ANALYZE

В целом, PostgreSQL 18 ускоряет работу с любыми нагрузками, упрощает апгрейды и делает разработку ещё удобнее.

🔗 Подробнее: https://clc.to/6TROGw

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

1.57K views19:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗺 Geographic Data Science с Python

Географическая дата-сайенс объединяет пространственный анализ, статистику и визуализацию для поиска скрытых закономерностей в данных.

Python стал стандартом в этой области благодаря мощным библиотекам:
➡️ GeoPandas — работа с shapefiles, GeoJSON, пространственные операции (оверлеи, буферизация, расстояния),
➡️ Matplotlib & Seaborn — от базовых графиков до наглядных теплокарт и сложных визуализаций,
➡️ scikit-learn — машинное обучение для геоданных: кластеризация, классификация, прогнозирование.

Применения:
🚩 анализ экологии и поиск «горячих точек» загрязнений,
🚩 исследование демографии и выявление неравенства,
🚩 городское планирование и смарт-инфраструктура.

➡️

Отличная книга, кому интересно направление

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5

1.68K views10:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤫 Курс «ИИ-агенты для DS-специалистов»

Каждый технологический скачок оставляет позади тех, кто «подождал ещё чуть-чуть». ИИ-агенты — это новый рывок.

Уже через пару лет именно они будут драйвить аналитику и автоматизацию. Хотите остаться на гребне?

🖥️ На курсе «ИИ-агенты для DS-специалистов» мы разберём:

— создание AI-агентов с нуля
— сборку собственной RAG-системы
— интеграцию LLM под задачи бизнеса

📌 Курс подходит:

→ ML/AI инженерам (middle+ / senior)
→ Data Scientists
→ Backend и platform-инженерам
→ Advanced CS/DS студентам

⚡️ Старт уже скоро — 3 октября.

💰 До 28 сентября действует скидка — 57.000 ₽ вместо 69.000 ₽ (по промокоду datarascals).

🔗 Узнать больше о курсе и записаться

З.ы. если вы не успели на вебинар «ИИ-агенты: новая фаза развития искусственного интеллекта» — запись уже доступна

❤2

1.52K views15:01

About

Blog

Apps

Platform