Data Analysis / Big Data
2.83K subscribers
567 photos
3 videos
2 files
2.83K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Плюсы и минусы платформы автоматизации рабочих процессов n8n

Бизнес всегда стремится к большей эффективности — делать больше, затрачивая меньше времени и ресурсов. Один из способов достичь этого — использование программ для автоматизации рабочих процессов, которые берут на себя повторяющиеся и трудоемкие задачи, от поддержки клиентов до формирования отчетов.

Среди множества доступных решений n8n привлекает внимание своей гибкостью, открытым исходным кодом и способностью справляться со сложными процессами. Но, как и любой мощный инструмент, он имеет сильные и слабые стороны. В этой статье мы подробно рассмотрим плюсы и минусы использования n8n, чтобы помочь вам решить, подходит ли он для ваших задач по автоматизации.


Читать: https://habr.com/ru/articles/958060/

#ru

@big_data_analysis | Другие наши каналы
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.


Читать: https://habr.com/ru/companies/datasapience/articles/959496/

#ru

@big_data_analysis | Другие наши каналы
Импорт, преобразование и оптимизация — одним конвейером SQL

Импорт терабайтов из S3 одним SQL: INSERT FROM FILES и PIPE. Партиционирование через date_trunc(), RANDOM‑бакетизация, трансформации с JOIN/UNNEST и гибкий ALTER TABLE.


Читать: https://habr.com/ru/articles/959768/

#ru

@big_data_analysis | Другие наши каналы
Вероятностные методы в биржевой торговле

Современная биржевая торговля эволюционировала от интуитивных решений к строгим математическим моделям. В эпоху доминирования алгоритмических систем глубокое понимание стохастических основ рыночной динамики становится критически важным конкурентным преимуществом. На протяжении пяти лет мы исследуем применение сложных вероятностных моделей для анализа, прогнозирования финансовых инструментов и готов представить наиболее значимые аспекты этой методологии.

Финансовые площадки функционируют как сложные адаптивные механизмы, где множество участников действуют в условиях фундаментальной неопределенности. Математический аппарат теории вероятностей позволяет формализовать эту неопределенность и создавать аналитические конструкции, способные выявлять скрытые паттерны в хаотичных ценовых колебаниях.


Читать: https://habr.com/ru/articles/957232/

#ru

@big_data_analysis | Другие наши каналы
ETL & ELT. От перестановки «слагаемых» результат меняется

Привет, Habr!

Я тимлид достаточно молодой команды разработки и недавно столкнулась с недопониманием у ребят различий в двух казалось бы идентичных процессах и решила разложить все по полочкам. И вот теперь это моя первая статья на Habr, буду рада поддержке.


Читать: https://habr.com/ru/articles/960254/

#ru

@big_data_analysis | Другие наши каналы
👍2
В поисках золотого клиента. Часть 1

В поисках золотого клиента. Часть 1

Как найти своего «золотого» покупателя и, не прикладывая особых усилий, регулярно продавать ему товар? Уверен, этот вопрос занимает всех маркетологов. В свое время я тоже его решал. Я изучил немало исследований в области психологии, которые могут помочь в маркетинге, если мы говорим о персонализированном маркетинге, построенном на данных. Теперь я оказался по другую сторону баррикад. Мне нужно продвинуть свой товар маркетологам, а именно убедить их что инструмент, созданной нашей компанией CleverData (входит в холдинг LANSOF), умеет находить правильных клиентов для любого бизнеса. А самим маркетологам останется только пить кофе. И иногда отправлять нужные рассылки. Разумеется, сейчас вы все подумали об ИИ. Но нет. Это топливо для ИИ - сбор и обогащение данных о клиентах.


Читать: https://habr.com/ru/companies/lansoft_career/articles/958394/

#ru

@big_data_analysis | Другие наши каналы
1
Как мы вырастили ML-фреймворк внутри компании: эволюция, ошибки и инсайты

Привет, Хабр! Меня зовут Юля Корышева, я разработчик машинного обучения в команде скоринга в билайне. В этой статье расскажу, как за последние пять лет в нашей команде менялся подход к разработке, валидации и поддержке моделей — с какими вызовами мы столкнулись, как их решали и к каким результатам пришли.


Читать: https://habr.com/ru/companies/beeline_tech/articles/960796/

#ru

@big_data_analysis | Другие наши каналы
Типы языков программирования: от низкоуровневых до высокоуровневых — как выбрать для новичка

Выбираете первый язык программирования? Узнайте о низкоуровневых (C, C++), среднеуровневых (Java, C#) и высокоуровневых (Python, JavaScript) языках: плюсы, минусы и примеры применения. Чек-лист от экспертов поможет новичкам выбрать язык для веб, мобильной разработки или игр.

Читать: «Типы языков программирования: от низкоуровневых до высокоуровневых — как выбрать для новичка»

#ru

@big_data_analysis | Другие наши каналы
🤣1
StarRocks Lakehouse: быстрый старт — Apache Paimon

Практический гид по быстрому запуску StarRocks Lakehouse с Apache Paimon. Вы узнаете, как построить единую пакетную и потоковую обработку (batch/stream) на базе ACID-хранилища с поддержкой schema evolution и Time Travel, разберетесь в моделях таблиц (Primary Key, Append, Append Queue) и стратегиях compaction. Пошагово настроим Flink, Kafka, Paimon и StarRocks, создадим топик и генератор данных, соберем Flink SQL‑пайплайн и выполним запросы из StarRocks, включая Read-Optimized и инкрементальное чтение.


Читать: https://habr.com/ru/articles/961268/

#ru

@big_data_analysis | Другие наши каналы
Больше, чем BI: 23 фичи Luxms BI, которыми мы гордимся. Часть 2: Функционал классической BI-системы

Это вторая часть серии «23 фичи Luxms BI, которыми мы гордимся». В первой (прочитать можно здесь) мы говорили о платформенности и архитектуре — о том, на чём держится система.

А сегодня расскажем о базе, о функционале классической BI-системы, который и делает систему BI-системой.

Этот раздел про то, без чего не обходится ни одна зрелая BI-система — визуализации, переменные, геоаналитика, сводные таблицы и внутренний язык. Мы не столько гордимся самим фактом их наличия — всё это действительно есть во многих решениях, сколько тем, как именно эти возможности реализованы в Luxms BI — у нас всё заточено под скорость, гибкость и удобство.


Читать: https://habr.com/ru/companies/luxms_bi/articles/961378/

#ru

@big_data_analysis | Другие наши каналы
Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

Разрабатывая AI-консультантов и ассистентов на базе RAG-архитектуры, работающих с корпоративными базами знаний на русском языке, мы столкнулись с вопросом: какие открытые эмбеддинг-модели дают лучший баланс качества семантического поиска на русском и скорости работы. Особенно это актуально, когда запросы и документы русскоязычные, но внутри часто попадаются фрагменты кода/SQL и англоязычной терминологии.

Мы прогнали 9 open-source эмбеддинг-моделей через несколько тестов, включающих проверки:


Читать: https://habr.com/ru/articles/961972/

#ru

@big_data_analysis | Другие наши каналы
Преодолевай нежно: проверенный метод обхода сопротивления при внедрении BI

По данным Gartner, до 70-80% BI-инициатив не достигают поставленных целей, доля активных пользователей не превышает 30-40% количества лицензий, а аналитики тратят половину своего времени не на инсайты, а на рутину. И главная причина этого фиаско кроется не в недостаточной производительности серверов, элегантности дашбордов и даже не в качестве данных. Проекты буксуют, а инвестиции не окупаются из-за людей: их привычек, страхов, устоявшихся ритуалов принятия решений и, как следствие, активного или пассивного сопротивления новым инструментам. В этой статье я расскажу о новом подходе, который позволяет системно подойти к вопросу работы с сопротивлением для CIO, CDO, руководители бизнес-функций, продакт-менеджеров BI и лидеров аналитики. В этой статье мы начнем знакомиться с системным, человекоцентричным подходом к преодолению сопротивления, который уже был неоднократно опробован на практике.


Читать: https://habr.com/ru/companies/visiology/articles/962024/

#ru

@big_data_analysis | Другие наши каналы
Data Quality в масштабе Big Data: как мы построили систему контроля качества данных в Hadoop

Качество данных — это не просто вопрос наличия значений в столбцах таблиц. Это вопрос доверия к данным в целом. Мы можем создавать сложные системы отчётности, но если на каком-то этапе ETL в данных возникают пропуски, дубликаты или они не соответствуют ожиданиям, вся система теряет доверие потребителей. В результате приходится тратить много времени на поиск и устранение причин таких проблем.


Читать: https://habr.com/ru/companies/ozontech/articles/962174/

#ru

@big_data_analysis | Другие наши каналы
👍1
Биржи данных как движок экономики данных

Взгляд с высоты птичьего полета

Дисклеймер: несмотря на облегченный стиль, это не научпоп, это описание реальной исследовательской работы, ее мотивировок и подходов, которые часто остаются за кадром.

Этой публикацией мы начинаем серию статей, в которой хотим изложить наше видение пути, по которому сейчас идет развитие экономики данных, и возможных подходов к его рационализации. В первой статье рассматривается понятие биржи данных, которое мы считаем важным механизмом и двигателем развития экономики данных. Анализируется опыт текущих проектов по созданию платформ для обмена данными. Намечаются направления дальнейшего обсуждения.

Рискуя прослыть занудой, хочу напомнить, что выражение «экономика данных», относительно недавно введенное в оборот скорее как мем, чем как строгое научное понятие, обозначает новый этап развития мировой экономики, следующий после аграрной экономики, промышленной экономики, постиндустриальной (сервисной) экономики, информационной экономики. И вот, настала очередь экономики данных. Также полезно будет держать в уме описание смены технологических переделов, которые характеризуются как революции. Все они называются промышленными революциями, только после каждой из них само понятие промышленности (индустрии) кардинально меняется. По этой шкале мы переживаем четвертую промышленную революцию, если все еще верить Клаусу Швабу, председателю Всемирного экономического форума в Давосе, который, после того, как прослыл изрядным женолюбом, покинул пост после полувека правления.
довольно нудную аналитику...

Читать: https://habr.com/ru/companies/idx/articles/962598/

#ru

@big_data_analysis | Другие наши каналы
GDPval: измерение производительности AI-моделей на реальных задачах

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPval, потому что она вдохновлена концепцией валового внутреннего продукта (ВВП, англ. GDP) как ключевого экономического индикатора, а набор задач основан на типичных ролях в индустриях, которые вносят наибольший вклад в ВВП.

Люди часто рассуждают о масштабном влиянии AI на общество, но самый наглядный способ понять каков его потенциал, это посмотреть на то, что модели уже умеют делать на практике. История показывает, что крупным технологиям, от интернета до смартфонов, требовалось более десяти лет, чтобы пройти путь от изобретения до массового внедрения. Такие оценки, как GDPval, помогают приземлить разговоры о будущем ИИ на факты, а не на догадки, и дают возможность отслеживать прогресс моделей во времени.


Читать: https://habr.com/ru/articles/962702/

#ru

@big_data_analysis | Другие наши каналы