Codeby

Китайский стартап DeepSeek стремительно ворвался на рынок генеративного ИИ, представив DeepSeek-R1 — модель, созданную для сложных логических рассуждений. Однако исследования в области кибербезопасности показали, что R1 обладает критическими уязвимостями и крайне слабо защищена от атак.

🗣️ Новые отчёты компаний WithSecure, Kela Cyber, Unit 42 (Palo Alto Networks) и EnkryptAI выявили уязвимости в DeepSeek-R1, делающие её лёгкой мишенью для хакеров.

➡️

Высокая подверженность prompt injection атакам: WithSecure Consulting протестировала 19 LLM-моделей, включая DeepSeek-R1, OpenAI o1 и Claude 3.5 Sonnet, с помощью нового инструмента Spikee.

Итоги неутешительны:
🔸 DeepSeek-R1 заняла 17-е место из 19, демонстрируя ASR (Attack Success Rate) 77% в тестах на защиту от атак
🔸 При добавлении системных правил и маркеров защита улучшилась незначительно (ASR 55%)
🔸 Для сравнения, OpenAI o1 заняла 4-е место в базовом тесте (ASR 27%) и 1-е место в режиме с усиленной защитой (0% атак)

➡️

Подверженность джейлбрейку и созданию вредоносного кода
Исследование Kela Cyber показало, что DeepSeek-R1 легко взламывается с помощью техники Evil Jailbreak, ранее использовавшейся для обхода ограничений в OpenAI GPT-3.5. Эта атака позволяет модели генерировать вредоносный контент, включая инструкции по распространению вредоносного ПО.

➡️

Новые техники обхода ограничений: Аналитики Unit 42 (Palo Alto Networks) обнаружили три новые методики джейлбрейка.

1️⃣

Crescendo — постепенное введение модели в заблуждение, направленное на генерацию запрещённого контента

2️⃣

Deceptive Delight — скрытие вредоносных запросов среди легитимных, используя положительный контекст

3️⃣

Bad Likert Judge — манипуляция оценочной шкалой, заставляющая модель выдавать вредоносные примеры

➡️

DeepSeek-R1 в 11 раз чаще создаёт вредоносные выходные данные, чем OpenAI o1
Компания EnkryptAI провела тестирование моделей по стандартам безопасности OWASP Top 10 for LLMs, MITRE ATLAS и NIST AI RMF.

Модифицированные версии DeepSeek-R1 могут исполнять код при загрузке
Исследование Protect AI показало, что официальная версия R1 на Hugging Face не содержит явных уязвимостей. Однако модифицированные версии модели способны выполнять произвольный код при загрузке, что создаёт риск заражения системы при использовании неофициальных сборок.

#новости

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍10❤7👎1😁1👾1

5.48K views16:02

Codeby

Google тайно установил приложение, которое сканирует фото на вашем смартфоне

👀

Пользователи Android внезапно обнаружили на своих устройствах новое системное приложение — Android System SafetyCore. Оно устанавливается без согласия пользователей и работает в фоновом режиме.

После паники в интернете Google спустя несколько дней всё-таки подтвердил, что это приложение анализирует изображения в Google Messages и скрывает откровенный контент.

Что именно делает SafetyCore?
🔸 Приложение автоматически сканирует изображения в Google Messages на наличие 18+ контента.
🔸 Если обнаружен откровенный снимок, он размывается (блюрится) и появляется предупреждение.
🔸 Google заявляет, что вся обработка происходит на устройстве и файлы не загружаются в облако.

Почему пользователи возмущены?

1️⃣

Приложение установилось скрытно.
Google даже не уведомил пользователей о том, что добавляет новую систему сканирования изображений. Просто однажды люди заметили у себя на телефонах приложение, которое они не устанавливали.

2️⃣

Жрёт ресурсы.
SafetyCore требует около 2 ГБ оперативной памяти, что делает его непригодным для слабых смартфонов. Владельцы бюджетных Android-устройств уже жалуются на лаги и подвисания.

3️⃣

Кому-то это нужно?
Приложение работает только в Google Messages, а этот мессенджер почти никто не использует. Но Google всё равно принудительно загнал SafetyCore на миллионы устройств.

4️⃣

Сегодня не отправляет, а завтра?
Google уверяет, что фото остаются на устройстве и не передаются в облако. Но многие пользователи не верят в это. Уже сейчас компания собирает кучу данных о пользователях для таргетированной рекламы.

5️⃣

Что, если ИИ ошибётся?
Блюрятся только "откровенные" фото? А если система решит, что что-то на вашей картинке — это "неподобающий контент"? У Google уже были проблемы с алгоритмами, которые ошибочно блокировали пользователей и контент.

Google снова тестирует границы дозволенного. Как вам такое обновление?

#новости

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🤯11❤6😡5🤔4🔥3😱1

5.31K views16:04

Codeby

Исследователи Reversing Labs обнаружили две вредоносные ML-модели на Hugging Face, крупнейшей платформе для обмена AI-моделями. Несмотря на наличие в них вредоносного кода, инструменты безопасности Hugging Face не отметили их как «опасные».

❓

Как работает атака?
Злоумышленники использовали уязвимость Pickle-файлов – формата сериализации в Python, который может исполнять код во время загрузки модели. Хотя вредоносные Pickle-файлы встречаются не впервые, исследователи выявили новую технику обхода защиты Picklescan – сканера, используемого Hugging Face для выявления угроз.

🔍

Метод nullifAI
Атакующие упаковали модели в формате PyTorch, но вместо стандартного ZIP использовали 7z, что сделало их невидимыми для Picklescan. Более того, файлы содержали «сломанные» Pickle-инструкции, из-за чего сканер не мог их корректно проверить.

💡

Проблемы в безопасности Hugging Face
Эксперты считают, что Hugging Face полагается на черный список опасных функций, что не защищает от новых угроз. Picklescan проверяет Pickle-файлы перед анализом, но сам механизм десериализации исполняет команды по мере их считывания. Вредоносный код в начале потока может обойти защиту и остаться незамеченным.

🗣️ Reversing Labs сообщили о проблеме в службу безопасности Hugging Face. Модели удалили в течение 24 часов, а Picklescan обновили, чтобы он мог обнаруживать угрозы в «сломанных» Pickle-файлах.

Если вы работаете с AI-моделями, избегайте загрузки Pickle-файлов из непроверенных источников. Атаки на ML-платформы становятся все изощреннее — будьте внимательны!

#новости

Please open Telegram to view this post

VIEW IN TELEGRAM

50👍18🔥8❤6😁2

5.38K views13:02

About

Blog

Apps

Platform