Топ-3 ML-модели, которые помогут в продуктовой аналитике
Как использовать ML-модели, чтобы не просто анализировать пользователей, а управлять их поведением — предсказывать отток, оценивать эффект от акций и подбирать оптимальные воздействия.
В этой статье я собрал три типа моделей: прогнозирование поведения, uplift-модели и выбор оптимального воздействия. Давайте разбираем, как они устроены и где реально приносят пользу.
Читать: https://habr.com/ru/articles/938434/
#ru
@big_data_analysis | Другие наши каналы
Как использовать ML-модели, чтобы не просто анализировать пользователей, а управлять их поведением — предсказывать отток, оценивать эффект от акций и подбирать оптимальные воздействия.
В этой статье я собрал три типа моделей: прогнозирование поведения, uplift-модели и выбор оптимального воздействия. Давайте разбираем, как они устроены и где реально приносят пользу.
Читать: https://habr.com/ru/articles/938434/
#ru
@big_data_analysis | Другие наши каналы
Кто такой Product Owner: роль, обязанности, навыки
Сегодня Agile-методологии стали де-факто стандартом, и Scrum — один из самых известных фреймворков. Но хотя Scrum задаёт чёткую структуру, на практике роли и процессы нередко размываются.
Роль Product Owner — одна из критически важных в Scrum. Однако то, как она описана «по канону», и то, как она реализуется в реальных командах, может заметно отличаться. В этом гайде мы разберём теоретические основы роли PO — и то, как её обычно воплощают в повседневной работе.
Читать: https://habr.com/ru/articles/957912/
#ru
@big_data_analysis | Другие наши каналы
Сегодня Agile-методологии стали де-факто стандартом, и Scrum — один из самых известных фреймворков. Но хотя Scrum задаёт чёткую структуру, на практике роли и процессы нередко размываются.
Роль Product Owner — одна из критически важных в Scrum. Однако то, как она описана «по канону», и то, как она реализуется в реальных командах, может заметно отличаться. В этом гайде мы разберём теоретические основы роли PO — и то, как её обычно воплощают в повседневной работе.
Читать: https://habr.com/ru/articles/957912/
#ru
@big_data_analysis | Другие наши каналы
Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.
Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.
Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.
Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.
Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.
Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.
👉 GitHub - upgini/upgini: Data search library for Machine Learning
Читать: https://habr.com/ru/articles/956310/
#ru
@big_data_analysis | Другие наши каналы
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.
Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.
Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.
Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.
Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.
Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.
👉 GitHub - upgini/upgini: Data search library for Machine Learning
Читать: https://habr.com/ru/articles/956310/
#ru
@big_data_analysis | Другие наши каналы
Упрощаем Spark через Catalog API
Говоря о серьезных кластерах в компаниях, нам часто приходится взаимодействовать со сторонними отделами и их данными. И зачастую, когда речь идет об ad-hoc, самый эффективный инструмент - Trino. Он удобен тем, что в платформе данных можно добавить каталог, который позволит по сути избежать настройки коннекшена для конечного пользователя. Просто в запросе указываешь название каталога данных и трино сам понимает, что нужно взять данные со сторонней базы данных. Но все меняется, когда выразительности SQL нам перестает хватать для выполнения поставленных задач и мы переходим в Spark. Точнее, менялось. С релизом Spark 3.0 появилась возможность взаимодействовать с внешними источниками так же просто, как в Trino.
Читать: https://habr.com/ru/articles/958478/
#ru
@big_data_analysis | Другие наши каналы
Говоря о серьезных кластерах в компаниях, нам часто приходится взаимодействовать со сторонними отделами и их данными. И зачастую, когда речь идет об ad-hoc, самый эффективный инструмент - Trino. Он удобен тем, что в платформе данных можно добавить каталог, который позволит по сути избежать настройки коннекшена для конечного пользователя. Просто в запросе указываешь название каталога данных и трино сам понимает, что нужно взять данные со сторонней базы данных. Но все меняется, когда выразительности SQL нам перестает хватать для выполнения поставленных задач и мы переходим в Spark. Точнее, менялось. С релизом Spark 3.0 появилась возможность взаимодействовать с внешними источниками так же просто, как в Trino.
Читать: https://habr.com/ru/articles/958478/
#ru
@big_data_analysis | Другие наши каналы
👍2
ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев
Сравнение ClickHouse и StarRocks: архитектура и функциональность, типы join и модели данных (широкая таблица vs звезда), конкурентность, частые обновления (Primary Key, Merge‑on‑Read), администрирование и онлайн‑масштабирование. Приводим результаты бенчмарков SSB и TPC‑H, а также тесты загрузки (GitHub dataset). Все тестовые данные и конфигурации актуальны на 2022 год. Если вам интересно, воспроизведите эксперименты по актуальным инструкциям проектов и поделитесь результатами и замечаниями — это поможет уточнить выводы и обновить сравнение.
Читать: https://habr.com/ru/articles/958616/
#ru
@big_data_analysis | Другие наши каналы
Сравнение ClickHouse и StarRocks: архитектура и функциональность, типы join и модели данных (широкая таблица vs звезда), конкурентность, частые обновления (Primary Key, Merge‑on‑Read), администрирование и онлайн‑масштабирование. Приводим результаты бенчмарков SSB и TPC‑H, а также тесты загрузки (GitHub dataset). Все тестовые данные и конфигурации актуальны на 2022 год. Если вам интересно, воспроизведите эксперименты по актуальным инструкциям проектов и поделитесь результатами и замечаниями — это поможет уточнить выводы и обновить сравнение.
Читать: https://habr.com/ru/articles/958616/
#ru
@big_data_analysis | Другие наши каналы
Дайджест препринтов научных статей в области астрофизики за июль 2025 по версии Попова
Близкая планета вызывает вспышки на звезде (Close-in planet induces flares on its host star)Authors: Ekaterina Ilin et al.Comments: 23 pages, 7 figures, 3 tables. Submitted to Nature
Наблюдения на TESS и CHEOPS показали, что у молодого G-карлика HIP 67522, вокруг которого обращаются две планеты на низких орбитах, происходят вспышки, вызванные магнитным взаимодействием с одной из планет.
Вертикальная структура и динамика диска Галактики (Vertical Structure and Dynamics of a Galactic Disk)Authors: Chanda J. Jog Comments: 223 pages, 35 figures, 379 references. Invited review for Physics Reports Большой обзор по структуре и физике галактического диска. На удивление мало формул (с полсотни, и больше половины из них - в 4м разделе), зато много полезных графиков. Приведено много данных наблюдений и разъяснены основные процессы, отвечающие за формирование структуры диска.
Читать: https://habr.com/ru/articles/958674/
#ru
@big_data_analysis | Другие наши каналы
Близкая планета вызывает вспышки на звезде (Close-in planet induces flares on its host star)Authors: Ekaterina Ilin et al.Comments: 23 pages, 7 figures, 3 tables. Submitted to Nature
Наблюдения на TESS и CHEOPS показали, что у молодого G-карлика HIP 67522, вокруг которого обращаются две планеты на низких орбитах, происходят вспышки, вызванные магнитным взаимодействием с одной из планет.
Вертикальная структура и динамика диска Галактики (Vertical Structure and Dynamics of a Galactic Disk)Authors: Chanda J. Jog Comments: 223 pages, 35 figures, 379 references. Invited review for Physics Reports Большой обзор по структуре и физике галактического диска. На удивление мало формул (с полсотни, и больше половины из них - в 4м разделе), зато много полезных графиков. Приведено много данных наблюдений и разъяснены основные процессы, отвечающие за формирование структуры диска.
Читать: https://habr.com/ru/articles/958674/
#ru
@big_data_analysis | Другие наши каналы
Большое сравнение архитектур LLM
Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке. Поговорим про DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.
Ну а дальше слово автору:
Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, оглядываясь назад на GPT-2 (2019) и вперед на DeepSeek-V3 и Llama 4 (2024-2025), можно удивиться тому, насколько структурно похожими остаются эти модели.
Однако я считаю, что все еще есть большая ценность в изучении структурных изменений самих архитектур, чтобы увидеть, чем занимаются разработчики LLM в 2025 году.
Читать: https://habr.com/ru/articles/958880/
#ru
@big_data_analysis | Другие наши каналы
Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке. Поговорим про DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.
Ну а дальше слово автору:
Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, оглядываясь назад на GPT-2 (2019) и вперед на DeepSeek-V3 и Llama 4 (2024-2025), можно удивиться тому, насколько структурно похожими остаются эти модели.
Однако я считаю, что все еще есть большая ценность в изучении структурных изменений самих архитектур, чтобы увидеть, чем занимаются разработчики LLM в 2025 году.
Читать: https://habr.com/ru/articles/958880/
#ru
@big_data_analysis | Другие наши каналы
Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк
Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.
Читать: https://habr.com/ru/articles/959000/
#ru
@big_data_analysis | Другие наши каналы
Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.
Читать: https://habr.com/ru/articles/959000/
#ru
@big_data_analysis | Другие наши каналы
Плюсы и минусы платформы автоматизации рабочих процессов n8n
Бизнес всегда стремится к большей эффективности — делать больше, затрачивая меньше времени и ресурсов. Один из способов достичь этого — использование программ для автоматизации рабочих процессов, которые берут на себя повторяющиеся и трудоемкие задачи, от поддержки клиентов до формирования отчетов.
Среди множества доступных решений n8n привлекает внимание своей гибкостью, открытым исходным кодом и способностью справляться со сложными процессами. Но, как и любой мощный инструмент, он имеет сильные и слабые стороны. В этой статье мы подробно рассмотрим плюсы и минусы использования n8n, чтобы помочь вам решить, подходит ли он для ваших задач по автоматизации.
Читать: https://habr.com/ru/articles/958060/
#ru
@big_data_analysis | Другие наши каналы
Бизнес всегда стремится к большей эффективности — делать больше, затрачивая меньше времени и ресурсов. Один из способов достичь этого — использование программ для автоматизации рабочих процессов, которые берут на себя повторяющиеся и трудоемкие задачи, от поддержки клиентов до формирования отчетов.
Среди множества доступных решений n8n привлекает внимание своей гибкостью, открытым исходным кодом и способностью справляться со сложными процессами. Но, как и любой мощный инструмент, он имеет сильные и слабые стороны. В этой статье мы подробно рассмотрим плюсы и минусы использования n8n, чтобы помочь вам решить, подходит ли он для ваших задач по автоматизации.
Читать: https://habr.com/ru/articles/958060/
#ru
@big_data_analysis | Другие наши каналы
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala
В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.
Читать: https://habr.com/ru/companies/datasapience/articles/959496/
#ru
@big_data_analysis | Другие наши каналы
В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.
Читать: https://habr.com/ru/companies/datasapience/articles/959496/
#ru
@big_data_analysis | Другие наши каналы
Импорт, преобразование и оптимизация — одним конвейером SQL
Импорт терабайтов из S3 одним SQL: INSERT FROM FILES и PIPE. Партиционирование через date_trunc(), RANDOM‑бакетизация, трансформации с JOIN/UNNEST и гибкий ALTER TABLE.
Читать: https://habr.com/ru/articles/959768/
#ru
@big_data_analysis | Другие наши каналы
Импорт терабайтов из S3 одним SQL: INSERT FROM FILES и PIPE. Партиционирование через date_trunc(), RANDOM‑бакетизация, трансформации с JOIN/UNNEST и гибкий ALTER TABLE.
Читать: https://habr.com/ru/articles/959768/
#ru
@big_data_analysis | Другие наши каналы
Вероятностные методы в биржевой торговле
Современная биржевая торговля эволюционировала от интуитивных решений к строгим математическим моделям. В эпоху доминирования алгоритмических систем глубокое понимание стохастических основ рыночной динамики становится критически важным конкурентным преимуществом. На протяжении пяти лет мы исследуем применение сложных вероятностных моделей для анализа, прогнозирования финансовых инструментов и готов представить наиболее значимые аспекты этой методологии.
Финансовые площадки функционируют как сложные адаптивные механизмы, где множество участников действуют в условиях фундаментальной неопределенности. Математический аппарат теории вероятностей позволяет формализовать эту неопределенность и создавать аналитические конструкции, способные выявлять скрытые паттерны в хаотичных ценовых колебаниях.
Читать: https://habr.com/ru/articles/957232/
#ru
@big_data_analysis | Другие наши каналы
Современная биржевая торговля эволюционировала от интуитивных решений к строгим математическим моделям. В эпоху доминирования алгоритмических систем глубокое понимание стохастических основ рыночной динамики становится критически важным конкурентным преимуществом. На протяжении пяти лет мы исследуем применение сложных вероятностных моделей для анализа, прогнозирования финансовых инструментов и готов представить наиболее значимые аспекты этой методологии.
Финансовые площадки функционируют как сложные адаптивные механизмы, где множество участников действуют в условиях фундаментальной неопределенности. Математический аппарат теории вероятностей позволяет формализовать эту неопределенность и создавать аналитические конструкции, способные выявлять скрытые паттерны в хаотичных ценовых колебаниях.
Читать: https://habr.com/ru/articles/957232/
#ru
@big_data_analysis | Другие наши каналы
ETL & ELT. От перестановки «слагаемых» результат меняется
Привет, Habr!
Я тимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий в двух казалось бы идентичных процессах и решила разложить все по полочкам. И вот теперь это моя первая статья на Habr, буду рада поддержке.
Читать: https://habr.com/ru/articles/960254/
#ru
@big_data_analysis | Другие наши каналы
Привет, Habr!
Я тимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий в двух казалось бы идентичных процессах и решила разложить все по полочкам. И вот теперь это моя первая статья на Habr, буду рада поддержке.
Читать: https://habr.com/ru/articles/960254/
#ru
@big_data_analysis | Другие наши каналы
👍2