Data Analysis / Big Data

Аналитика данных на 1С без костылей: обзор коннектора Visiology

Сегодня многие организации работают на базе решений из семейства 1С. Но для того, чтобы получить развитые практики BI – то есть реализовать полномасштабную аналитику для принятия управленческих решений на базе данных из 1С, всегда нужно было принимать немало дополнительных усилий. Все потому, что встроенные в платформу технологии не позволяют добиться уже привычного уровня гибкости, а использование промежуточных структур несет в себе ряд технологических неудобств. Все это стало причиной появления собственного коннектора Visiology к 1С. В этой статье мы рассказываем о том, какие проблемы возникают при попытке настроить автоматическую аналитику на базе 1С, и как новый компонент платформы Visiology помогает решить их все в комплексе.
Посмотреть, как Visiology работает с 1С

Читать: https://habr.com/ru/companies/visiology/articles/954274/

#ru

@big_data_analysis | Другие наши каналы

258 views14:11

Oracle Fusion повышает продажи и прогнозы

Глобальная компания в области материаловедения и цифровой идентификации использует Oracle Fusion Data Intelligence для оптимизации продаж, прогнозирования и управления производственными цепочками поставок. Подробности в статье.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Avery Dennison exploits its data to optimize sales and supply chain

Global materials science and digital identification solutions company uses Oracle Fusion Data Intelligence to improve sales, forecasting and manufacturing supply chains

242 views21:53

Data Analysis / Big Data

Oracle People Leaders: FDI для контроля соответствия
В статье говорится, что Oracle People Leaders применяют технологию FDI для мониторинга кадрового соответствия нормативам, что повышает прозрачность процессов и ускоряет реагирование на нарушения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Oracle People Leaders use FDI to track compliance

283 views21:53

Data Analysis / Big Data

Южная Корея может навсегда потерять 858 ТБ государственных данных после пожара в дата-центре

В результате пожара в государственном дата-центре NIRS в Южной Корее уничтожено до 858 ТБ данных, включая хранилище G-Drive без резервной копии. Четыре человека арестованы, восстановление сетей идёт медленно.

Читать: «Южная Корея может навсегда потерять 858 ТБ государственных данных после пожара в дата-центре»

#ru

@big_data_analysis | Другие наши каналы

311 views08:21

Data Analysis / Big Data

Greengage DB: новый open-source монстр MPP-аналитики. Конец эпохи Greenplum?*

Что, если Greenplum пережил перерождение?
Новый проект Greengage DB возвращает PostgreSQL в большую игру — теперь с авто-масштабированием, чистым ядром и реальной совместимостью.
Разбираемся, почему этот форк может стать «Linux для аналитики».

Читать: https://habr.com/ru/articles/954506/

#ru

@big_data_analysis | Другие наши каналы

👍1

313 views09:52

Data Analysis / Big Data

Я «уволил» LLM с должности «мозга» проекта. И его производительность взлетела

Помните свой первый «вау‑эффект» от LLM?

Я помню. Возможность вести диалог, генерировать код, получать ответы на сложные вопросы — казалось, мы получили идеального партнера по мышлению.
Но эйфория быстро угасла когда я начал использовать LLM для реальных, долгосрочных задач: рефакторинга сложного кода, написания архитектурной документации, анализа бизнес‑задач. И здесь проявилась фундаментальная проблема — «забывание».

Читать: https://habr.com/ru/articles/954742/

#ru

@big_data_analysis | Другие наши каналы

336 views19:18

Data Analysis / Big Data

Оптимизация источников данных для ML моделей

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Читать: https://habr.com/ru/articles/954826/

#ru

@big_data_analysis | Другие наши каналы

266 views07:26

Data Analysis / Big Data

Книга: «Грокаем структуры данных»

Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов!

Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных.

Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки.

Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас.

Читать: https://habr.com/ru/companies/piter/articles/954670/

#ru

@big_data_analysis | Другие наши каналы

👍4

285 views09:02

Data Analysis / Big Data

Актуальные вопросы по ИИ и перспективным технологиям

Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.

Фокус на принятии решений: когда инвестировать в агентный ИИ и DSLM, какие метрики измерять и как масштабировать без потери контроля.

Читать: https://habr.com/ru/articles/954788/

#ru

@big_data_analysis | Другие наши каналы

255 views11:12

Data Analysis / Big Data

Собираем собственный ЦОД. 30 петабайт дискового пространства для предобучения моделей

Как потратить почти полмиллиона долларов, чтобы собрать в центре Сан-Франциско хранилище данных объёмом 30 петабайт

Мы собрали в центре Сан-Франциско центр для хранения данных с общим дисковым пространством, где хранятся видеоданные общей длительностью 90 миллионов часов. Зачем? Мы предобучаем модели, чтобы разобраться с использованием компьютеров. Дело в том, что видео гораздо крупнее, чем текстовые данные. Например, на обучение такой текстовой БЯМ как LLaMa-405B требуется ~60 ТБ текстовых данных, а на хранение видео нужно в 500 раз больше текстового пространства. За хранение всей этой информации на серверах AWS пришлось бы выложить 12 миллионов долларов в год, поэтому мы пошли другим путём и арендовали пространство в колокационном центре в Сан-Франциско. Так нам удалось снизить эти расходы примерно в 40 раз (до $354 тысяч в год, считая издержки на устаревание).

Читать: https://habr.com/ru/articles/955002/

#ru

@big_data_analysis | Другие наши каналы

❤1

276 views12:41

Data Analysis / Big Data

Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?

В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны.

Читать: https://habr.com/ru/articles/955024/

#ru

@big_data_analysis | Другие наши каналы

273 views13:05

Data Analysis / Big Data

Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?

В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны.

Читать: https://habr.com/ru/articles/955030/

#ru

@big_data_analysis | Другие наши каналы

253 views13:05

Data Analysis / Big Data

Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями

Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных.

В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.

Читать: https://habr.com/ru/companies/axenix/articles/952278/

#ru

@big_data_analysis | Другие наши каналы

👍2

253 views08:21

Data Analysis / Big Data

Apache Cloudberry — открытое будущее Greenplum. Сравнение, архитектура, перспективы

Если вы работаете с аналитическими базами данных, то наверняка слышали о Greenplum — одном из самых мощных MPP-решений (Massively Parallel Processing) на базе PostgreSQL.
Однако в последние годы в экосистеме PostgreSQL появилось новое имя — Apache Cloudberry.

На первый взгляд, это ещё один форк Greenplum.
Но на деле Cloudberry — переосмысление архитектуры MPP-СУБД, выполненное с уважением к наследию Greenplum, но с современным кодом, ядром PostgreSQL 14+, открытым управлением через Apache Foundation и амбициозной целью стать по-настоящему открытой аналитической платформой уровня DWH.

Читать: https://habr.com/ru/articles/955244/

#ru

@big_data_analysis | Другие наши каналы

280 views08:37

Data Analysis / Big Data

Сбер заменил ИИ до 25% разработчиков — от джунов до лидов

Сбер заменил ИИ до 25% IT-команды: тысячи разработчиков и тестировщиков уволены под видом «оптимизации», банк говорит об автоматизации

Читать: «Сбер заменил ИИ до 25% разработчиков — от джунов до лидов»

#ru

@big_data_analysis | Другие наши каналы

😁2

319 views09:35

Data Analysis / Big Data

BI в закрытом контуре: технические вызовы развертывания и эксплуатации

Бизнес-аналитику чаще внедряют в облаке или гибридной инфраструктуре. Но что делать, если по требованиям безопасности выход интернет недоступен, а BI‑система должна работать только внутри корпоративной сети?

Эта статья будет полезна архитекторам, DevOps‑инженерам и администраторам, которым нужно развернуть BI‑платформу в изолированной среде. На примере Modus BI мы разберём ключевые технические трудности и покажем решения, проверенные в реальных проектах.

Читать: https://habr.com/ru/companies/modusbi/articles/954862/

#ru

@big_data_analysis | Другие наши каналы

282 views12:00

Data Analysis / Big Data

Arc: Убийца ClickHouse на стероидах из DuckDB и Parquet? Разбираем новый движок для time-series

Привет, Хабр! Если последние годы вас не отпускала фантомная боль от вечного выбора между ураганной скоростью ClickHouse, невозмутимой простотой SQLite и порой адской сложностью настройки InfluxDB, — возможно, вы, как и мы, дождались чего-то по-настоящему нового.

На горизонте появился проект Arc от команды Basekick Labs. Это не просто очередная попытка, а дерзкая заявка на соединение всего лучшего из мира time-series и lakehouse-подхода. Забудьте о тяжёлых серверах и мучительной шардированной архитектуре. Arc предлагает:

Читать: https://habr.com/ru/articles/955536/

#ru

@big_data_analysis | Другие наши каналы

👍2

297 views06:03

Data Analysis / Big Data

GigAPI — это лёгкий «тайм-серии-лейкхаус» на базе DuckDB + Parquet с FDAP-стеком

Если вы когда-нибудь собирали аналитику по кликам, метрикам или логам, то знаете цену вопроса: хочется SQL за миллисекунды, хранение в дёшёвом объектном хранилище, минимум «танцев» с кластером и—если повезёт—MIT-лицензию без ловушек. На одном берегу — «тяжёлые» распределённые OLAP-системы (ClickHouse, Pinot, Druid), на другом — специализированные TSDB (InfluxDB, TimescaleDB, QuestDB). Между ними набирает силу «озёрный» подход: складывать сырые события в Parquet, а считать — встраиваемым движком с Arrow/FlightSQL поверх.

GigAPI как раз из этой когорты: DuckDB + Parquet, чтение из локального диска или S3, запросы через FlightSQL (gRPC) и HTTP, режимы writeonly/readonly/compaction, один контейнер для старта и понятная философия «делай просто, делай быстро». Проект обещает суб-секундные аналитические запросы, компактизацию и дружбу с FDAP-миром (Arrow/DataFusion/Parquet/Flight) — всё то, что нравится инженерам, уставшим от «зоопарков» сервисов.

Читать: https://habr.com/ru/articles/955560/

#ru

@big_data_analysis | Другие наши каналы

295 views09:10

Data Analysis / Big Data

Зачем бизнесу GPT-платформа, а не просто LLM: опыт JET & Yandex GPT Lab

Меня зовут Антон Чикин, я руковожу отделом интеллектуального анализа в «Инфосистемы Джет». В статье я попробую показать на практическом примере, почему корпоративный ИИ нельзя свести к установке готовой LLM — и что именно приходится выстраивать вокруг неё, чтобы получить реальную ценность для бизнеса.

Этот материал будет полезен тем, кто отвечает за внедрение ИИ в компаниях среднего и крупного масштаба: ИТ-директорам, архитекторам корпоративных систем, специалистам по информационной безопасности и тем, кто рассматривает генеративный ИИ как инструмент автоматизации бизнес-процессов.

Читать: https://habr.com/ru/companies/jetinfosystems/articles/956042/

#ru

@big_data_analysis | Другие наши каналы

269 views12:01

Data Analysis / Big Data

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов

Поводом написания этой статьи послужил подслушанный диалог:

А на чем у вас агенты написаны?

У нас на MCP!

Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться.

Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?

Читать: https://habr.com/ru/articles/956150/

#ru

@big_data_analysis | Другие наши каналы

261 views16:36

Data Analysis / Big Data

Обзоры препринтов научных статей в области астрофизики за сентябрь 2025 года

Выпуск 448

Пределы космологии (The limits of cosmology)Authors: Joseph SilkComments: 23 pages, Gen Relativ Gravit 57, 127 (2025)

Если вы думаете, что известный космолог-теоретик пишет про теорию, то вы ошибаетесь! Силк внезапно втопил за лунные проекты. И это не только низкочастотные радионаблюдения на другой стороне Луны, но и совершенно фантастические (очень дорого и сложно) проекты гравитационно-волновых детекторов (типа LIGO, Virgo) на Луне (там низкий сейсмический шум, и можно уйти на низкие частоты).

Радиопроекты могут быть реализованы в середине этого века. Гравволновые - точно нет. Но интересно, что Силк погружает все это в интересный и понятно описанный контекст космологических задач (отсюда и название статьи). Так что читать все равно интересно. Вот это и впрямь научная фантастика!

А еще… затронем ИИ и прочие захватывающие темы
Обещаю, будет интересно…

Читать: https://habr.com/ru/articles/956210/

#ru

@big_data_analysis | Другие наши каналы

🆒2

261 views21:28

About

Blog

Apps

Platform