Data Analysis / Big Data
2.84K subscribers
567 photos
3 videos
2 files
2.82K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Arrow Flight, Flight SQL и ADBC: Прощаемся с тормозами ODBC/JDBC в мире больших данных

Привет, Хабр! Если вы хоть раз пытались выгрузить из базы данных несколько гигабайт данных в pandas DataFrame, то вам знакома эта боль. Вы пишете простой SELECT, запускаете скрипт и... уходите пить кофе. А потом ещё раз. Почему так медленно? Ведь и база быстрая, и сетка не загружена, и ваш Python-скрипт крутится на мощной машине.

Проблема кроется в невидимом, но коварном враге — старых и проверенных, как дедушкин паяльник, протоколах вроде ODBC и JDBC. Они были созданы для мира транзакционных, построчных баз данных и совершенно не готовы к современным аналитическим нагрузкам.

Давайте разберёмся, почему они так тормозят и какой стек технологий приходит им на смену, обещая скорости, о которых мы раньше только мечтали.

В основу легла статья Dipankar Mazumdar.


Читать: https://habr.com/ru/articles/953438/

#ru

@big_data_analysis | Другие наши каналы
👍3
ChatGPT как главный маркетплейс планеты: разбираем OpenAI Agentic Commerce Protocol

Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие несколько лет. А может и нет.

Однажды в интервью продуктологов OpenAI я прочитал важную мысль про подход к запуску новых продуктов — «мы трясем яблоню и смотрим что упадет». Можно любить OpenAI и не любить, любить LLMки и нет (лучше — любить), но все, что делает OpenAI неизбежно долгосрочно оказывает влияние на всю индустрию, поэтому совсем пройти мимо такого интересного события — не хотелось.

И как говорил мой англоговорящий друг: «Is that just hype, low hanging fruit, or a real game changer?» (хороший вопрос, кстати).

Попробуем разобраться что внутри и куда движет еком, сравнив в том числе с тем, что делает Google.


Читать: https://habr.com/ru/articles/953640/

#ru

@big_data_analysis | Другие наши каналы
2
Учебный кластер ClickHouse на Docker Compose: от нуля к работающему стенду

Запускаем на ноутбуке учебный кластер ClickHouse — шардированный (sharding) и реплицируемый (replication) — на Docker Compose.
Это не один сервер в контейнере, а стенд из 2 шардов × 2 реплики, с координацией через ZooKeeper и балансировкой HAProxy — поднимается за несколько минут.
Зачем: на практике разобрать репликацию и распределение по шардам, увидеть базовую отказоустойчивость и спокойно экспериментировать — всё в контейнерах, всегда можно снести и развернуть заново.
Кому: новичкам, кто хочет «пощупать» кластер; тем, кто знает базовый синтаксис ClickHouse, но не пробовал шардирование/репликацию; тем, кто готовится к собеседованию или приценивается к архитектуре перед продом.
В комплекте — готовые конфиги и docker-compose.yml в репозитории; всё, что нужно, — Docker и несколько команд.


Читать: https://habr.com/ru/articles/953662/

#ru

@big_data_analysis | Другие наши каналы
👍2
Бесконечность в ваших данных – power laws

Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.


Читать: https://habr.com/ru/articles/953674/

#ru

@big_data_analysis | Другие наши каналы
1
Понимание оценки LLM: детальный разбор 4 основных подходов

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.

Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.

В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.


Читать: https://habr.com/ru/articles/953684/

#ru

@big_data_analysis | Другие наши каналы
👍2
Как мы в Циане готовим Data Vault на GreenPlum

Привет! Меня зовут Влад, я DWH-инженер в Циан. Занимаюсь проектированием витрин и пайплайнов для доставки данных в корпоративное хранилище. В этой статье хочу поделиться опытом применения методологии Data Vault на Greenplum.

Data Vault часто упоминают рядом с Kimball и Inmon, но практических материалов по его внедрению заметно меньше. Для инженеров, которые только начинают строить DWH или думают о переходе на Data Vault, я собрал практический разбор: на каких задачах методология действительно помогает, с какими трудностями можно столкнуться и как это выглядит в реальном проекте.


Читать: https://habr.com/ru/articles/953750/

#ru

@big_data_analysis | Другие наши каналы
👍2
Исследуем OSS-инструменты для MLSecOps: цели проекта и промежуточные результаты

Привет, Хабр! Меня зовут Алексей Солдатов, я выпускник магистратуры «Системный анализ и математические технологии» НИУ ВШЭ. Хочу поделиться с вами опытом исследования атак на модели машинного обучения под руководством Павла Литикова, архитектора ИБ-подразделения AI VK, в рамках мастерской по безопасности ИИ в Инженерно‑математической школе НИУ ВШЭ и VK.

Модели машинного обучения сегодня применяют в самых разных сферах жизни людей. Однако вопросы безопасности зачастую остаются на периферии внимания разработчиков и инженеров. Для компании VK, в инфраструктуре которой функционируют тысячи ML-моделей, особенно актуальна задача автоматизации и упрощения процессов обеспечения их безопасности.

Наша команда продолжает работу над проектом RnD OSS-инструментов для MLSecOps, целью которого является систематизация открытых инструментов и подходов к обеспечению безопасности систем машинного обучения. Сейчас мы сосредоточены на изучении и воспроизведении атак различной природы на ML-модели. В рамках экспериментов протестировали инструменты для атак на модели разных модальностей: текстовых, табличных, визуальных и аудиоданных. Средства защиты планируем рассмотреть на следующих этапах проекта. Этот материал — промежуточный обзор задач проекта, его структуры и первых полученных результатов анализа атакующих подходов.


Читать: https://habr.com/ru/companies/vk/articles/953744/

#ru

@big_data_analysis | Другие наши каналы
Как мы захотели контролировать SPILL’ы в Greenplum и сделали “Демократизатор”

Представьте: Один неоптимизированный запрос от неопытного коллеги - и вот уже 40 ТБ SPILL-файлов парализуют систему.

Срабатывает лимит на уровне Greenplum, запрос завершён. Никто ничего не знает.

Создаются заявки, пишутся письма, пользователь недоволен.

Это не какая-то выдуманная история, а обычный будний день в большом Greenplum. Вернее, так было раньше.


Читать: https://habr.com/ru/companies/rostelecom/articles/954164/

#ru

@big_data_analysis | Другие наши каналы
👍2
Аналитика данных на 1С без костылей: обзор коннектора Visiology

Сегодня многие организации работают на базе решений из семейства 1С. Но для того, чтобы получить развитые практики BI – то есть реализовать полномасштабную аналитику для принятия управленческих решений на базе данных из 1С, всегда нужно было принимать немало дополнительных усилий. Все потому, что встроенные в платформу технологии не позволяют добиться уже привычного уровня гибкости, а использование промежуточных структур несет в себе ряд технологических неудобств. Все это стало причиной появления собственного коннектора Visiology к 1С.  В этой статье мы рассказываем о том, какие проблемы возникают при попытке настроить автоматическую аналитику на базе 1С, и как новый компонент платформы Visiology помогает решить их все в комплексе.
Посмотреть, как Visiology работает с 1С

Читать: https://habr.com/ru/companies/visiology/articles/954274/

#ru

@big_data_analysis | Другие наши каналы
Oracle Fusion повышает продажи и прогнозы

Глобальная компания в области материаловедения и цифровой идентификации использует Oracle Fusion Data Intelligence для оптимизации продаж, прогнозирования и управления производственными цепочками поставок. Подробности в статье.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Oracle People Leaders: FDI для контроля соответствия
В статье говорится, что Oracle People Leaders применяют технологию FDI для мониторинга кадрового соответствия нормативам, что повышает прозрачность процессов и ускоряет реагирование на нарушения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Южная Корея может навсегда потерять 858 ТБ государственных данных после пожара в дата-центре

В результате пожара в государственном дата-центре NIRS в Южной Корее уничтожено до 858 ТБ данных, включая хранилище G-Drive без резервной копии. Четыре человека арестованы, восстановление сетей идёт медленно.

Читать: «Южная Корея может навсегда потерять 858 ТБ государственных данных после пожара в дата-центре»

#ru

@big_data_analysis | Другие наши каналы
Greengage DB: новый open-source монстр MPP-аналитики. Конец эпохи Greenplum?*

Что, если Greenplum пережил перерождение?
Новый проект Greengage DB возвращает PostgreSQL в большую игру — теперь с авто-масштабированием, чистым ядром и реальной совместимостью.
Разбираемся, почему этот форк может стать «Linux для аналитики».


Читать: https://habr.com/ru/articles/954506/

#ru

@big_data_analysis | Другие наши каналы
👍1
Я «уволил» LLM с должности «мозга» проекта. И его производительность взлетела

Помните свой первый «вау‑эффект» от LLM?

Я помню. Возможность вести диалог, генерировать код, получать ответы на сложные вопросы — казалось, мы получили идеального партнера по мышлению.
Но эйфория быстро угасла когда я начал использовать LLM для реальных, долгосрочных задач: рефакторинга сложного кода, написания архитектурной документации, анализа бизнес‑задач. И здесь проявилась фундаментальная проблема — «забывание».


Читать: https://habr.com/ru/articles/954742/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация источников данных для ML моделей

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.


Читать: https://habr.com/ru/articles/954826/

#ru

@big_data_analysis | Другие наши каналы
Книга: «Грокаем структуры данных»

Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов!

Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных.

Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки.

Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас.


Читать: https://habr.com/ru/companies/piter/articles/954670/

#ru

@big_data_analysis | Другие наши каналы
👍4
Актуальные вопросы по ИИ и перспективным технологиям

Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.

Фокус на принятии решений: когда инвестировать в агентный ИИ и DSLM, какие метрики измерять и как масштабировать без потери контроля.


Читать: https://habr.com/ru/articles/954788/

#ru

@big_data_analysis | Другие наши каналы
Собираем собственный ЦОД. 30 петабайт дискового пространства для предобучения моделей

Как потратить почти полмиллиона долларов, чтобы собрать в центре Сан-Франциско хранилище данных объёмом 30 петабайт

Мы собрали в центре Сан-Франциско центр для хранения данных с общим дисковым пространством, где хранятся видеоданные общей длительностью 90 миллионов часов. Зачем? Мы предобучаем модели, чтобы разобраться с использованием компьютеров. Дело в том, что видео гораздо крупнее, чем текстовые данные. Например, на обучение такой текстовой БЯМ как LLaMa-405B требуется ~60 ТБ текстовых данных, а на хранение видео нужно в 500 раз больше текстового пространства. За хранение всей этой информации на серверах AWS пришлось бы выложить 12 миллионов долларов в год, поэтому мы пошли другим путём и арендовали пространство в колокационном центре в Сан-Франциско. Так нам удалось снизить эти расходы примерно в 40 раз (до $354 тысяч в год, считая издержки на устаревание).


Читать: https://habr.com/ru/articles/955002/

#ru

@big_data_analysis | Другие наши каналы
1
Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?

В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны.


Читать: https://habr.com/ru/articles/955024/

#ru

@big_data_analysis | Другие наши каналы
Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?

В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны.


Читать: https://habr.com/ru/articles/955030/

#ru

@big_data_analysis | Другие наши каналы