IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.
Читать: https://habr.com/ru/articles/951498/
#ru
@big_data_analysis | Другие наши каналы
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.
Читать: https://habr.com/ru/articles/951498/
#ru
@big_data_analysis | Другие наши каналы
Можно ли DAX-запрос превратить в SQL? Да, и сейчас я покажу, как (и зачем)
Аналитика, Power BI, DAX, SQL, Базы данных
Каждый, кто перешел в Power BI из мира баз данных или просто имеет за плечами опыт работы с SQL, наверняка задавался этим вопросом. Пишешь очередную навороченную меру на DAX, смотришь на результат и думаешь: «А как бы эта магия выглядела на старом добром, понятном SQL?».
Хватит гадать. Короткий ответ: да, это возможно, но это не прямой перевод с одного языка на другой. Забудьте о волшебном онлайн-конвертере, который сделает всё за вас. Это ручной процесс, требующий анализа и понимания.
Читать: https://habr.com/ru/articles/953108/
#ru
@big_data_analysis | Другие наши каналы
Аналитика, Power BI, DAX, SQL, Базы данных
Каждый, кто перешел в Power BI из мира баз данных или просто имеет за плечами опыт работы с SQL, наверняка задавался этим вопросом. Пишешь очередную навороченную меру на DAX, смотришь на результат и думаешь: «А как бы эта магия выглядела на старом добром, понятном SQL?».
Хватит гадать. Короткий ответ: да, это возможно, но это не прямой перевод с одного языка на другой. Забудьте о волшебном онлайн-конвертере, который сделает всё за вас. Это ручной процесс, требующий анализа и понимания.
Читать: https://habr.com/ru/articles/953108/
#ru
@big_data_analysis | Другие наши каналы
👍3
Data Drift в ML Страхового Дома ВСК: от PSI-анализа до пересборки фичей и сравнения моделей
Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.
Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.
В этой статье я на реальном примере разберу, как:
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/953162/
#ru
@big_data_analysis | Другие наши каналы
Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.
Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.
В этой статье я на реальном примере разберу, как:
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/953162/
#ru
@big_data_analysis | Другие наши каналы
Почему не стоит заменять пустые значения нулями в Power BI
Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!
Читать: https://habr.com/ru/articles/951458/
#ru
@big_data_analysis | Другие наши каналы
Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!
Читать: https://habr.com/ru/articles/951458/
#ru
@big_data_analysis | Другие наши каналы
👍2
Что такое DWH и зачем оно нужно бизнесу?
Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.
Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.
Подробнее о DWH
Читать: https://habr.com/ru/companies/otus/articles/950328/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.
Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.
Подробнее о DWH
Читать: https://habr.com/ru/companies/otus/articles/950328/
#ru
@big_data_analysis | Другие наши каналы
👍3
Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний
Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.
В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.
Читать: https://habr.com/ru/articles/953298/
#ru
@big_data_analysis | Другие наши каналы
Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.
В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.
Читать: https://habr.com/ru/articles/953298/
#ru
@big_data_analysis | Другие наши каналы
Parquet — король умер? Да здравствует… кто? Обзор BtrBlocks, FastLanes, Lance и Vortex
Привет, Хабр! Если вы работаете с большими данными, то для вас, скорее всего, Parquet — это как воздух. Стандарт де-факто для колоночного хранения в экосистеме Hadoop, Spark, и вообще всего, что связано с аналитикой. Он эффективен, надёжен и поддерживается практически всеми инструментами. Казалось бы, живи и радуйся.
Но что, если я скажу, что в мире современных SSD, многоядерных CPU и вездесущих векторных баз данных старый добрый Parquet начинает показывать свой возраст? Он был спроектирован в эпоху, когда узким местом были HDD и сетевые задержки, а не скорость процессора. Сегодня железо изменилось, задачи тоже, и на сцену выходят новые, амбициозные форматы.
Давайте разберёмся, где именно Parquet даёт слабину и кто эти дерзкие новички, которые метят на его трон.
За основу взята статья Dipankar Mazumdar.
Читать: https://habr.com/ru/articles/953436/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Если вы работаете с большими данными, то для вас, скорее всего, Parquet — это как воздух. Стандарт де-факто для колоночного хранения в экосистеме Hadoop, Spark, и вообще всего, что связано с аналитикой. Он эффективен, надёжен и поддерживается практически всеми инструментами. Казалось бы, живи и радуйся.
Но что, если я скажу, что в мире современных SSD, многоядерных CPU и вездесущих векторных баз данных старый добрый Parquet начинает показывать свой возраст? Он был спроектирован в эпоху, когда узким местом были HDD и сетевые задержки, а не скорость процессора. Сегодня железо изменилось, задачи тоже, и на сцену выходят новые, амбициозные форматы.
Давайте разберёмся, где именно Parquet даёт слабину и кто эти дерзкие новички, которые метят на его трон.
За основу взята статья Dipankar Mazumdar.
Читать: https://habr.com/ru/articles/953436/
#ru
@big_data_analysis | Другие наши каналы
Запускаем Qwen3-VL-30B на 48GB VRAM
Недавно вышла коллекция моделей от Alibaba - Qwen3-VL:
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
Запустим эту модель на Ubuntu
Читать: https://habr.com/ru/articles/953514/
#ru
@big_data_analysis | Другие наши каналы
Недавно вышла коллекция моделей от Alibaba - Qwen3-VL:
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
Запустим эту модель на Ubuntu
Читать: https://habr.com/ru/articles/953514/
#ru
@big_data_analysis | Другие наши каналы
Data Forge: Собираем весь современный дата-стек на своем ноутбуке одной командой
Привет, Хабр!
Давайте признаемся: порог входа в Data Engineering довольно высок. И дело не только в знании SQL или Python. Настоящая боль начинается, когда ты пытаешься собрать на своей машине хотя бы простенький пайплайн.
Нужно поднять Kafka, рядом поставить Zookeeper (или обойтись Kraft, если ты хипстер), прикрутить Debezium для CDC, развернуть Spark для обработки, где-то хранить результат (привет, MinIO!), а потом всё это оркестрировать через Airflow и визуализировать в Superset. Каждый инструмент — это отдельный Docker-контейнер, своя конфигурация, свои порты и свои зависимости. Через пару часов борьбы с
Знакомо? А что, если я скажу, что весь этот зоопарк можно поднять одной командой, и он просто... заработает?
Сегодня я хочу рассказать о проекте, который стал для меня настоящей находкой — Data Forge. Это готовая песочница для дата-инженера, или, как называет её автор, "Data Engineering Playground".
Читать: https://habr.com/ru/articles/953536/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Давайте признаемся: порог входа в Data Engineering довольно высок. И дело не только в знании SQL или Python. Настоящая боль начинается, когда ты пытаешься собрать на своей машине хотя бы простенький пайплайн.
Нужно поднять Kafka, рядом поставить Zookeeper (или обойтись Kraft, если ты хипстер), прикрутить Debezium для CDC, развернуть Spark для обработки, где-то хранить результат (привет, MinIO!), а потом всё это оркестрировать через Airflow и визуализировать в Superset. Каждый инструмент — это отдельный Docker-контейнер, своя конфигурация, свои порты и свои зависимости. Через пару часов борьбы с
docker-compose.yml и сетевыми настройками желание учиться и экспериментировать улетучивается.Знакомо? А что, если я скажу, что весь этот зоопарк можно поднять одной командой, и он просто... заработает?
Сегодня я хочу рассказать о проекте, который стал для меня настоящей находкой — Data Forge. Это готовая песочница для дата-инженера, или, как называет её автор, "Data Engineering Playground".
Читать: https://habr.com/ru/articles/953536/
#ru
@big_data_analysis | Другие наши каналы
Arrow Flight, Flight SQL и ADBC: Прощаемся с тормозами ODBC/JDBC в мире больших данных
Привет, Хабр! Если вы хоть раз пытались выгрузить из базы данных несколько гигабайт данных в
Проблема кроется в невидимом, но коварном враге — старых и проверенных, как дедушкин паяльник, протоколах вроде ODBC и JDBC. Они были созданы для мира транзакционных, построчных баз данных и совершенно не готовы к современным аналитическим нагрузкам.
Давайте разберёмся, почему они так тормозят и какой стек технологий приходит им на смену, обещая скорости, о которых мы раньше только мечтали.
В основу легла статья Dipankar Mazumdar.
Читать: https://habr.com/ru/articles/953438/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Если вы хоть раз пытались выгрузить из базы данных несколько гигабайт данных в
pandas DataFrame, то вам знакома эта боль. Вы пишете простой SELECT, запускаете скрипт и... уходите пить кофе. А потом ещё раз. Почему так медленно? Ведь и база быстрая, и сетка не загружена, и ваш Python-скрипт крутится на мощной машине.Проблема кроется в невидимом, но коварном враге — старых и проверенных, как дедушкин паяльник, протоколах вроде ODBC и JDBC. Они были созданы для мира транзакционных, построчных баз данных и совершенно не готовы к современным аналитическим нагрузкам.
Давайте разберёмся, почему они так тормозят и какой стек технологий приходит им на смену, обещая скорости, о которых мы раньше только мечтали.
В основу легла статья Dipankar Mazumdar.
Читать: https://habr.com/ru/articles/953438/
#ru
@big_data_analysis | Другие наши каналы
👍3
ChatGPT как главный маркетплейс планеты: разбираем OpenAI Agentic Commerce Protocol
Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие несколько лет. А может и нет.
Однажды в интервью продуктологов OpenAI я прочитал важную мысль про подход к запуску новых продуктов — «мы трясем яблоню и смотрим что упадет». Можно любить OpenAI и не любить, любить LLMки и нет (лучше — любить), но все, что делает OpenAI неизбежно долгосрочно оказывает влияние на всю индустрию, поэтому совсем пройти мимо такого интересного события — не хотелось.
И как говорил мой англоговорящий друг: «Is that just hype, low hanging fruit, or a real game changer?» (хороший вопрос, кстати).
Попробуем разобраться что внутри и куда движет еком, сравнив в том числе с тем, что делает Google.
Читать: https://habr.com/ru/articles/953640/
#ru
@big_data_analysis | Другие наши каналы
Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие несколько лет. А может и нет.
Однажды в интервью продуктологов OpenAI я прочитал важную мысль про подход к запуску новых продуктов — «мы трясем яблоню и смотрим что упадет». Можно любить OpenAI и не любить, любить LLMки и нет (лучше — любить), но все, что делает OpenAI неизбежно долгосрочно оказывает влияние на всю индустрию, поэтому совсем пройти мимо такого интересного события — не хотелось.
И как говорил мой англоговорящий друг: «Is that just hype, low hanging fruit, or a real game changer?» (хороший вопрос, кстати).
Попробуем разобраться что внутри и куда движет еком, сравнив в том числе с тем, что делает Google.
Читать: https://habr.com/ru/articles/953640/
#ru
@big_data_analysis | Другие наши каналы
❤2
Учебный кластер ClickHouse на Docker Compose: от нуля к работающему стенду
Запускаем на ноутбуке учебный кластер ClickHouse — шардированный (sharding) и реплицируемый (replication) — на Docker Compose.
Это не один сервер в контейнере, а стенд из 2 шардов × 2 реплики, с координацией через ZooKeeper и балансировкой HAProxy — поднимается за несколько минут.
Зачем: на практике разобрать репликацию и распределение по шардам, увидеть базовую отказоустойчивость и спокойно экспериментировать — всё в контейнерах, всегда можно снести и развернуть заново.
Кому: новичкам, кто хочет «пощупать» кластер; тем, кто знает базовый синтаксис ClickHouse, но не пробовал шардирование/репликацию; тем, кто готовится к собеседованию или приценивается к архитектуре перед продом.
В комплекте — готовые конфиги и
Читать: https://habr.com/ru/articles/953662/
#ru
@big_data_analysis | Другие наши каналы
Запускаем на ноутбуке учебный кластер ClickHouse — шардированный (sharding) и реплицируемый (replication) — на Docker Compose.
Это не один сервер в контейнере, а стенд из 2 шардов × 2 реплики, с координацией через ZooKeeper и балансировкой HAProxy — поднимается за несколько минут.
Зачем: на практике разобрать репликацию и распределение по шардам, увидеть базовую отказоустойчивость и спокойно экспериментировать — всё в контейнерах, всегда можно снести и развернуть заново.
Кому: новичкам, кто хочет «пощупать» кластер; тем, кто знает базовый синтаксис ClickHouse, но не пробовал шардирование/репликацию; тем, кто готовится к собеседованию или приценивается к архитектуре перед продом.
В комплекте — готовые конфиги и
docker-compose.yml в репозитории; всё, что нужно, — Docker и несколько команд.Читать: https://habr.com/ru/articles/953662/
#ru
@big_data_analysis | Другие наши каналы
👍2
Бесконечность в ваших данных – power laws
Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.
Читать: https://habr.com/ru/articles/953674/
#ru
@big_data_analysis | Другие наши каналы
Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.
Читать: https://habr.com/ru/articles/953674/
#ru
@big_data_analysis | Другие наши каналы
❤1
Понимание оценки LLM: детальный разбор 4 основных подходов
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.
Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.
Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.
В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.
Читать: https://habr.com/ru/articles/953684/
#ru
@big_data_analysis | Другие наши каналы
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.
Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.
Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.
В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.
Читать: https://habr.com/ru/articles/953684/
#ru
@big_data_analysis | Другие наши каналы
👍2
Как мы в Циане готовим Data Vault на GreenPlum
Привет! Меня зовут Влад, я DWH-инженер в Циан. Занимаюсь проектированием витрин и пайплайнов для доставки данных в корпоративное хранилище. В этой статье хочу поделиться опытом применения методологии Data Vault на Greenplum.
Data Vault часто упоминают рядом с Kimball и Inmon, но практических материалов по его внедрению заметно меньше. Для инженеров, которые только начинают строить DWH или думают о переходе на Data Vault, я собрал практический разбор: на каких задачах методология действительно помогает, с какими трудностями можно столкнуться и как это выглядит в реальном проекте.
Читать: https://habr.com/ru/articles/953750/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Влад, я DWH-инженер в Циан. Занимаюсь проектированием витрин и пайплайнов для доставки данных в корпоративное хранилище. В этой статье хочу поделиться опытом применения методологии Data Vault на Greenplum.
Data Vault часто упоминают рядом с Kimball и Inmon, но практических материалов по его внедрению заметно меньше. Для инженеров, которые только начинают строить DWH или думают о переходе на Data Vault, я собрал практический разбор: на каких задачах методология действительно помогает, с какими трудностями можно столкнуться и как это выглядит в реальном проекте.
Читать: https://habr.com/ru/articles/953750/
#ru
@big_data_analysis | Другие наши каналы
👍2
Исследуем OSS-инструменты для MLSecOps: цели проекта и промежуточные результаты
Привет, Хабр! Меня зовут Алексей Солдатов, я выпускник магистратуры «Системный анализ и математические технологии» НИУ ВШЭ. Хочу поделиться с вами опытом исследования атак на модели машинного обучения под руководством Павла Литикова, архитектора ИБ-подразделения AI VK, в рамках мастерской по безопасности ИИ в Инженерно‑математической школе НИУ ВШЭ и VK.
Модели машинного обучения сегодня применяют в самых разных сферах жизни людей. Однако вопросы безопасности зачастую остаются на периферии внимания разработчиков и инженеров. Для компании VK, в инфраструктуре которой функционируют тысячи ML-моделей, особенно актуальна задача автоматизации и упрощения процессов обеспечения их безопасности.
Наша команда продолжает работу над проектом RnD OSS-инструментов для MLSecOps, целью которого является систематизация открытых инструментов и подходов к обеспечению безопасности систем машинного обучения. Сейчас мы сосредоточены на изучении и воспроизведении атак различной природы на ML-модели. В рамках экспериментов протестировали инструменты для атак на модели разных модальностей: текстовых, табличных, визуальных и аудиоданных. Средства защиты планируем рассмотреть на следующих этапах проекта. Этот материал — промежуточный обзор задач проекта, его структуры и первых полученных результатов анализа атакующих подходов.
Читать: https://habr.com/ru/companies/vk/articles/953744/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Алексей Солдатов, я выпускник магистратуры «Системный анализ и математические технологии» НИУ ВШЭ. Хочу поделиться с вами опытом исследования атак на модели машинного обучения под руководством Павла Литикова, архитектора ИБ-подразделения AI VK, в рамках мастерской по безопасности ИИ в Инженерно‑математической школе НИУ ВШЭ и VK.
Модели машинного обучения сегодня применяют в самых разных сферах жизни людей. Однако вопросы безопасности зачастую остаются на периферии внимания разработчиков и инженеров. Для компании VK, в инфраструктуре которой функционируют тысячи ML-моделей, особенно актуальна задача автоматизации и упрощения процессов обеспечения их безопасности.
Наша команда продолжает работу над проектом RnD OSS-инструментов для MLSecOps, целью которого является систематизация открытых инструментов и подходов к обеспечению безопасности систем машинного обучения. Сейчас мы сосредоточены на изучении и воспроизведении атак различной природы на ML-модели. В рамках экспериментов протестировали инструменты для атак на модели разных модальностей: текстовых, табличных, визуальных и аудиоданных. Средства защиты планируем рассмотреть на следующих этапах проекта. Этот материал — промежуточный обзор задач проекта, его структуры и первых полученных результатов анализа атакующих подходов.
Читать: https://habr.com/ru/companies/vk/articles/953744/
#ru
@big_data_analysis | Другие наши каналы
Как мы захотели контролировать SPILL’ы в Greenplum и сделали “Демократизатор”
Представьте: Один неоптимизированный запрос от неопытного коллеги - и вот уже 40 ТБ SPILL-файлов парализуют систему.
Срабатывает лимит на уровне Greenplum, запрос завершён. Никто ничего не знает.
Создаются заявки, пишутся письма, пользователь недоволен.
Это не какая-то выдуманная история, а обычный будний день в большом Greenplum. Вернее, так было раньше.
Читать: https://habr.com/ru/companies/rostelecom/articles/954164/
#ru
@big_data_analysis | Другие наши каналы
Представьте: Один неоптимизированный запрос от неопытного коллеги - и вот уже 40 ТБ SPILL-файлов парализуют систему.
Срабатывает лимит на уровне Greenplum, запрос завершён. Никто ничего не знает.
Создаются заявки, пишутся письма, пользователь недоволен.
Это не какая-то выдуманная история, а обычный будний день в большом Greenplum. Вернее, так было раньше.
Читать: https://habr.com/ru/companies/rostelecom/articles/954164/
#ru
@big_data_analysis | Другие наши каналы
👍2
Аналитика данных на 1С без костылей: обзор коннектора Visiology
Сегодня многие организации работают на базе решений из семейства 1С. Но для того, чтобы получить развитые практики BI – то есть реализовать полномасштабную аналитику для принятия управленческих решений на базе данных из 1С, всегда нужно было принимать немало дополнительных усилий. Все потому, что встроенные в платформу технологии не позволяют добиться уже привычного уровня гибкости, а использование промежуточных структур несет в себе ряд технологических неудобств. Все это стало причиной появления собственного коннектора Visiology к 1С. В этой статье мы рассказываем о том, какие проблемы возникают при попытке настроить автоматическую аналитику на базе 1С, и как новый компонент платформы Visiology помогает решить их все в комплексе.
Посмотреть, как Visiology работает с 1С
Читать: https://habr.com/ru/companies/visiology/articles/954274/
#ru
@big_data_analysis | Другие наши каналы
Сегодня многие организации работают на базе решений из семейства 1С. Но для того, чтобы получить развитые практики BI – то есть реализовать полномасштабную аналитику для принятия управленческих решений на базе данных из 1С, всегда нужно было принимать немало дополнительных усилий. Все потому, что встроенные в платформу технологии не позволяют добиться уже привычного уровня гибкости, а использование промежуточных структур несет в себе ряд технологических неудобств. Все это стало причиной появления собственного коннектора Visiology к 1С. В этой статье мы рассказываем о том, какие проблемы возникают при попытке настроить автоматическую аналитику на базе 1С, и как новый компонент платформы Visiology помогает решить их все в комплексе.
Посмотреть, как Visiology работает с 1С
Читать: https://habr.com/ru/companies/visiology/articles/954274/
#ru
@big_data_analysis | Другие наши каналы
Oracle Fusion повышает продажи и прогнозы
Глобальная компания в области материаловедения и цифровой идентификации использует Oracle Fusion Data Intelligence для оптимизации продаж, прогнозирования и управления производственными цепочками поставок. Подробности в статье.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Глобальная компания в области материаловедения и цифровой идентификации использует Oracle Fusion Data Intelligence для оптимизации продаж, прогнозирования и управления производственными цепочками поставок. Подробности в статье.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Avery Dennison exploits its data to optimize sales and supply chain
Global materials science and digital identification solutions company uses Oracle Fusion Data Intelligence to improve sales, forecasting and manufacturing supply chains
Oracle People Leaders: FDI для контроля соответствия
В статье говорится, что Oracle People Leaders применяют технологию FDI для мониторинга кадрового соответствия нормативам, что повышает прозрачность процессов и ускоряет реагирование на нарушения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье говорится, что Oracle People Leaders применяют технологию FDI для мониторинга кадрового соответствия нормативам, что повышает прозрачность процессов и ускоряет реагирование на нарушения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle People Leaders use FDI to track compliance