Data Analysis / Big Data
2.84K subscribers
567 photos
3 videos
2 files
2.82K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Мультиагентный фреймворк CrewAI: разбор архитектуры и внутренностей

CrewAI — фреймворк интересный. Он похож на самый быстрый способ удивить своего босса: легкий, у него очень низкий порог входа, он по дизайну нацелен на мультиагентность и из него можно очень быстро собирать MVP с вау-эффектом. В статье поговорим о том как создавать агентов на фреймворке, что у них внутри, где фреймворк хорош, а куда брать его не нужно.

Мультиагентная система без подходящей задачи — это, как говорится, токены на ветер, поэтому мы сколотим банду агентов, которые нам будут анализировать arxiv-статьи про LLM и посмотрим как это работает.


Читать: https://habr.com/ru/articles/957384/

#ru

@big_data_analysis | Другие наши каналы
Наука для бизнеса: что внедрять завтра (анализ 134 195 научных работ 2025 года)

Чтобы понять, какие технологии будут определять рынок завтра, компании опираются на прогнозы/отчёты аналитиков или анализируют патенты. Но есть источник, который часто опережает и патенты – научные публикации. Далее о том, как я проанализировала 134195 научных статей 2025 года, чтобы ответить на вопрос, на какие технологии делать ставку прямо сейчас.


Читать: https://habr.com/ru/articles/956220/

#ru

@big_data_analysis | Другие наши каналы
2
Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.


Читать: https://habr.com/ru/articles/957748/

#ru

@big_data_analysis | Другие наши каналы
2
Топ-3 ML-модели, которые помогут в продуктовой аналитике

Как использовать ML-модели, чтобы не просто анализировать пользователей, а управлять их поведением — предсказывать отток, оценивать эффект от акций и подбирать оптимальные воздействия.

В этой статье я собрал три типа моделей: прогнозирование поведения, uplift-модели и выбор оптимального воздействия. Давайте разбираем, как они устроены и где реально приносят пользу.


Читать: https://habr.com/ru/articles/938434/

#ru

@big_data_analysis | Другие наши каналы
Кто такой Product Owner: роль, обязанности, навыки

Сегодня Agile-методологии стали де-факто стандартом, и Scrum — один из самых известных фреймворков. Но хотя Scrum задаёт чёткую структуру, на практике роли и процессы нередко размываются.

Роль Product Owner — одна из критически важных в Scrum. Однако то, как она описана «по канону», и то, как она реализуется в реальных командах, может заметно отличаться. В этом гайде мы разберём теоретические основы роли PO — и то, как её обычно воплощают в повседневной работе.


Читать: https://habr.com/ru/articles/957912/

#ru

@big_data_analysis | Другие наши каналы
Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning


Читать: https://habr.com/ru/articles/956310/

#ru

@big_data_analysis | Другие наши каналы
Упрощаем Spark через Catalog API

Говоря о серьезных кластерах в компаниях, нам часто приходится взаимодействовать со сторонними отделами и их данными. И зачастую, когда речь идет об ad-hoc, самый эффективный инструмент - Trino. Он удобен тем, что в платформе данных можно добавить каталог, который позволит по сути избежать настройки коннекшена для конечного пользователя. Просто в запросе указываешь название каталога данных и трино сам понимает, что нужно взять данные со сторонней базы данных. Но все меняется, когда выразительности SQL нам перестает хватать для выполнения поставленных задач и мы переходим в Spark. Точнее, менялось. С релизом Spark 3.0 появилась возможность взаимодействовать с внешними источниками так же просто, как в Trino.


Читать: https://habr.com/ru/articles/958478/

#ru

@big_data_analysis | Другие наши каналы
👍2
ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

Сравнение ClickHouse и StarRocks: архитектура и функциональность, типы join и модели данных (широкая таблица vs звезда), конкурентность, частые обновления (Primary Key, Merge‑on‑Read), администрирование и онлайн‑масштабирование. Приводим результаты бенчмарков SSB и TPC‑H, а также тесты загрузки (GitHub dataset). Все тестовые данные и конфигурации актуальны на 2022 год. Если вам интересно, воспроизведите эксперименты по актуальным инструкциям проектов и поделитесь результатами и замечаниями — это поможет уточнить выводы и обновить сравнение.


Читать: https://habr.com/ru/articles/958616/

#ru

@big_data_analysis | Другие наши каналы
Дайджест препринтов научных статей в области астрофизики за июль 2025 по версии Попова

Близкая планета вызывает вспышки на звезде (Close-in planet induces flares on its host star)Authors: Ekaterina Ilin et al.Comments: 23 pages, 7 figures, 3 tables. Submitted to Nature

Наблюдения на TESS и CHEOPS показали, что у молодого G-карлика HIP 67522, вокруг которого обращаются две планеты на низких орбитах, происходят вспышки, вызванные магнитным взаимодействием с одной из планет.

Вертикальная структура и динамика диска Галактики (Vertical Structure and Dynamics of a Galactic Disk)Authors: Chanda J. Jog Comments: 223 pages, 35 figures, 379 references. Invited review for Physics Reports  Большой обзор по структуре и физике галактического диска. На удивление мало формул (с полсотни, и больше половины из них - в 4м разделе), зато много полезных графиков. Приведено много данных наблюдений и разъяснены основные процессы, отвечающие за формирование структуры диска.


Читать: https://habr.com/ru/articles/958674/

#ru

@big_data_analysis | Другие наши каналы
Большое сравнение архитектур LLM

Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке. Поговорим про DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.

Ну а дальше слово автору:

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, оглядываясь назад на GPT-2 (2019) и вперед на DeepSeek-V3 и Llama 4 (2024-2025), можно удивиться тому, насколько структурно похожими остаются эти модели.

Однако я считаю, что все еще есть большая ценность в изучении структурных изменений самих архитектур, чтобы увидеть, чем занимаются разработчики LLM в 2025 году.


Читать: https://habr.com/ru/articles/958880/

#ru

@big_data_analysis | Другие наши каналы
Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.


Читать: https://habr.com/ru/articles/959000/

#ru

@big_data_analysis | Другие наши каналы
Плюсы и минусы платформы автоматизации рабочих процессов n8n

Бизнес всегда стремится к большей эффективности — делать больше, затрачивая меньше времени и ресурсов. Один из способов достичь этого — использование программ для автоматизации рабочих процессов, которые берут на себя повторяющиеся и трудоемкие задачи, от поддержки клиентов до формирования отчетов.

Среди множества доступных решений n8n привлекает внимание своей гибкостью, открытым исходным кодом и способностью справляться со сложными процессами. Но, как и любой мощный инструмент, он имеет сильные и слабые стороны. В этой статье мы подробно рассмотрим плюсы и минусы использования n8n, чтобы помочь вам решить, подходит ли он для ваших задач по автоматизации.


Читать: https://habr.com/ru/articles/958060/

#ru

@big_data_analysis | Другие наши каналы
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.


Читать: https://habr.com/ru/companies/datasapience/articles/959496/

#ru

@big_data_analysis | Другие наши каналы
Импорт, преобразование и оптимизация — одним конвейером SQL

Импорт терабайтов из S3 одним SQL: INSERT FROM FILES и PIPE. Партиционирование через date_trunc(), RANDOM‑бакетизация, трансформации с JOIN/UNNEST и гибкий ALTER TABLE.


Читать: https://habr.com/ru/articles/959768/

#ru

@big_data_analysis | Другие наши каналы
Вероятностные методы в биржевой торговле

Современная биржевая торговля эволюционировала от интуитивных решений к строгим математическим моделям. В эпоху доминирования алгоритмических систем глубокое понимание стохастических основ рыночной динамики становится критически важным конкурентным преимуществом. На протяжении пяти лет мы исследуем применение сложных вероятностных моделей для анализа, прогнозирования финансовых инструментов и готов представить наиболее значимые аспекты этой методологии.

Финансовые площадки функционируют как сложные адаптивные механизмы, где множество участников действуют в условиях фундаментальной неопределенности. Математический аппарат теории вероятностей позволяет формализовать эту неопределенность и создавать аналитические конструкции, способные выявлять скрытые паттерны в хаотичных ценовых колебаниях.


Читать: https://habr.com/ru/articles/957232/

#ru

@big_data_analysis | Другие наши каналы
ETL & ELT. От перестановки «слагаемых» результат меняется

Привет, Habr!

Я тимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий в двух казалось бы идентичных процессах и решила разложить все по полочкам. И вот теперь это моя первая статья на Habr, буду рада поддержке.


Читать: https://habr.com/ru/articles/960254/

#ru

@big_data_analysis | Другие наши каналы
👍2
ИИ упрощает SQL и мониторит производительность OAC

В статье показано, как AI превращает сложные запросы к базам в понятный диалог и автоматически выявляет аномалии в Oracle Analytics Cloud, ускоряя диагностику и анализ.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
В поисках золотого клиента. Часть 1

В поисках золотого клиента. Часть 1

Как найти своего «золотого» покупателя и, не прикладывая особых усилий, регулярно продавать ему товар? Уверен, этот вопрос занимает всех маркетологов. В свое время я тоже его решал. Я изучил немало исследований в области психологии, которые могут помочь в маркетинге, если мы говорим о персонализированном маркетинге, построенном на данных. Теперь я оказался по другую сторону баррикад. Мне нужно продвинуть свой товар маркетологам, а именно убедить их что инструмент, созданной нашей компанией CleverData (входит в холдинг LANSOF), умеет находить правильных клиентов для любого бизнеса. А самим маркетологам останется только пить кофе. И иногда отправлять нужные рассылки. Разумеется, сейчас вы все подумали об ИИ. Но нет. Это топливо для ИИ - сбор и обогащение данных о клиентах.


Читать: https://habr.com/ru/companies/lansoft_career/articles/958394/

#ru

@big_data_analysis | Другие наши каналы
1
Как мы вырастили ML-фреймворк внутри компании: эволюция, ошибки и инсайты

Привет, Хабр! Меня зовут Юля Корышева, я разработчик машинного обучения в команде скоринга в билайне. В этой статье расскажу, как за последние пять лет в нашей команде менялся подход к разработке, валидации и поддержке моделей — с какими вызовами мы столкнулись, как их решали и к каким результатам пришли.


Читать: https://habr.com/ru/companies/beeline_tech/articles/960796/

#ru

@big_data_analysis | Другие наши каналы
Типы языков программирования: от низкоуровневых до высокоуровневых — как выбрать для новичка

Выбираете первый язык программирования? Узнайте о низкоуровневых (C, C++), среднеуровневых (Java, C#) и высокоуровневых (Python, JavaScript) языках: плюсы, минусы и примеры применения. Чек-лист от экспертов поможет новичкам выбрать язык для веб, мобильной разработки или игр.

Читать: «Типы языков программирования: от низкоуровневых до высокоуровневых — как выбрать для новичка»

#ru

@big_data_analysis | Другие наши каналы
🤣1