🛰 ComputerRL - новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек.
Главная идея - парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.
Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.
Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.
📌 Статья
📌 Проект
Главная идея - парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.
Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.
Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.
📌 Статья
📌 Проект
❤12👍5🔥3
🎯 Новый вектор атак на ИИ — скрытые промпты в картинках
Trail of Bits показали, что хакеры могут прятать инструкции в изображениях. Пока картинка оригинального размера — всё чисто.
Но как только сервис (например, Gemini CLI или **Vertex AI Studio**) автоматически сжимает её, проявляется скрытый текст.
📌 Что это значит:
- ИИ «видит» спрятанный промпт и исполняет его, думая, что это команда пользователя.
- Так можно обойти фильтры и заставить модель делать то, что задумал атакующий.
🛠 Как защититься:
- Инструмент Anamorpher (open-source) для генерации и проверки таких атак.
- Защита: многоуровневая проверка картинок и отслеживание артефактов при масштабировании.
⚠️ Итог: даже безобидная картинка может оказаться «троянским конем» для ИИ-систем.
🔗Github: https://github.com/trailofbits/anamorpher
🔗 Подробнее: blog.trailofbits.com/2025/08/21/weaponizing-image-scaling-against-production-ai-systems/
#AI #Security #PromptInjection #TrailOfBits
Trail of Bits показали, что хакеры могут прятать инструкции в изображениях. Пока картинка оригинального размера — всё чисто.
Но как только сервис (например, Gemini CLI или **Vertex AI Studio**) автоматически сжимает её, проявляется скрытый текст.
📌 Что это значит:
- ИИ «видит» спрятанный промпт и исполняет его, думая, что это команда пользователя.
- Так можно обойти фильтры и заставить модель делать то, что задумал атакующий.
🛠 Как защититься:
- Инструмент Anamorpher (open-source) для генерации и проверки таких атак.
- Защита: многоуровневая проверка картинок и отслеживание артефактов при масштабировании.
⚠️ Итог: даже безобидная картинка может оказаться «троянским конем» для ИИ-систем.
🔗Github: https://github.com/trailofbits/anamorpher
🔗 Подробнее: blog.trailofbits.com/2025/08/21/weaponizing-image-scaling-against-production-ai-systems/
#AI #Security #PromptInjection #TrailOfBits
🔥20👍7❤3
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Генерация видео из кода с Code2Video
Code2Video предлагает инновационный подход к созданию образовательных видео на основе кода. Проект позволяет визуализировать программные концепции, превращая код в наглядные видеоматериалы, что упрощает обучение и понимание.
🚀Основные моменты:
- Генерация видео на основе программного кода.
- Поддержка различных учебных тем.
- Визуализация сложных концепций в доступной форме.
- Открытый доступ к проекту и данным.
📌 GitHub: https://github.com/showlab/Code2Video
#python
Code2Video предлагает инновационный подход к созданию образовательных видео на основе кода. Проект позволяет визуализировать программные концепции, превращая код в наглядные видеоматериалы, что упрощает обучение и понимание.
🚀Основные моменты:
- Генерация видео на основе программного кода.
- Поддержка различных учебных тем.
- Визуализация сложных концепций в доступной форме.
- Открытый доступ к проекту и данным.
📌 GitHub: https://github.com/showlab/Code2Video
#python
🔥22❤8😁3😭3
🔮 IREE — мост между ML-моделями и железом
Это не просто очередной фреймворк, а целая экосистема для компиляции ML-моделей в универсальное промежуточное представление, которое одинаково хорошо работает и в дата-центрах, и на мобильных устройствах.
Основанный на MLIR инструмент привлёк внимание крупных игроков: AMD использовала его для участия в MLPerf с реализацией SDXL, а сам проект вошёл в LF AI & Data Foundation. Для тех, кто хочет разобраться глубже с его использованием, есть записи выступлений на AsiaLLVM и Vulkanised.
🤖 GitHub
@machinelearning_interview
Это не просто очередной фреймворк, а целая экосистема для компиляции ML-моделей в универсальное промежуточное представление, которое одинаково хорошо работает и в дата-центрах, и на мобильных устройствах.
Основанный на MLIR инструмент привлёк внимание крупных игроков: AMD использовала его для участия в MLPerf с реализацией SDXL, а сам проект вошёл в LF AI & Data Foundation. Для тех, кто хочет разобраться глубже с его использованием, есть записи выступлений на AsiaLLVM и Vulkanised.
🤖 GitHub
@machinelearning_interview
❤8👍4🥰2
Что показано:
- NVIDIA может инвестировать до $2 млрд в equity, причём эта часть финансирована с привязкой к GPU-закупкам.
- Структура сделки включает SPV, которая купит GPU, а сама компания xAI будет их арендовать на пять лет.
Почему это важно:
- схема снижает начальные капитальные затраты xAI — вместо покупки GPU сразу, они арендуют, что даёт гибкость.
- крупный партнёр вроде NVIDIA усиливает доверие к проекту и подчёркивает, что аппаратная база остаётся ключевым фактором в развитии ИИ.
- сочетание equity и долга в таких объёмах говорит о масштабном расширении инфраструктуры и серьёзных вычислительных мощностях.
Возможные риски / вопросы:
- зависимость от условий аренды: стоимость, обеспечение, апгрейды, срок замены оборудования.
- долговая нагрузка может быть большой, особенно если доходы xAI не вырастут по плану.
- риск устаревания оборудования: GPU-поколения меняются, и оборудование может устареть до конца пятилетнего срока аренды.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман рассказал очень любопытную деталь о Sora.
Многие правообладатели наоборот хотят, чтобы их персонажи чаще использовались в видео, созданных с помощью Sora.
Пока OpenAI старается провести грань между конфиденциальностью и защитой, владельцы прав всё чаще просят больше открытости и видимости.
Они поняли, что когда пользователи создают креативные или вирусные видео с их персонажами, это повышает вовлечённость аудитории и популярность франшиз.
Ограничивая использование, можно потерять охват - поэтому для многих теперь открытость стала выгодой, а не угрозой.
🟠 Полное интервью
Многие правообладатели наоборот хотят, чтобы их персонажи чаще использовались в видео, созданных с помощью Sora.
Пока OpenAI старается провести грань между конфиденциальностью и защитой, владельцы прав всё чаще просят больше открытости и видимости.
Они поняли, что когда пользователи создают креативные или вирусные видео с их персонажами, это повышает вовлечённость аудитории и популярность франшиз.
Ограничивая использование, можно потерять охват - поэтому для многих теперь открытость стала выгодой, а не угрозой.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18😁9❤5🔥3
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.
Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.
Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.
🔄 Как её сделали
Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.
Они просто поменяли тип внимания и дообучили модель на новой задаче.
Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.
Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.
⚙️ Что под капотом
▪ Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.
▪ Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.
▪ Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.
- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.
Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.
Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.
@ai_machinelearning_big_data
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥6👍5🤝2
🧠 LIMIT: Исследование пределов извлечения на основе эмбеддингов
Репозиторий содержит набор данных LIMIT, созданный для проверки моделей эмбеддингов на теоретических принципах. Исследование показывает, что даже современные модели не могут вернуть определенные документы, подчеркивая ограничения текущего подхода с использованием одно-векторных эмбеддингов.
🚀Основные моменты:
- Набор данных для тестирования моделей эмбеддингов.
- Включает 50k документов и 1000 запросов.
- Подчеркивает теоретические ограничения извлечения информации.
- Код для генерации данных и экспериментов доступен в репозитории.
📌 GitHub: https://github.com/google-deepmind/limit
#python
Репозиторий содержит набор данных LIMIT, созданный для проверки моделей эмбеддингов на теоретических принципах. Исследование показывает, что даже современные модели не могут вернуть определенные документы, подчеркивая ограничения текущего подхода с использованием одно-векторных эмбеддингов.
🚀Основные моменты:
- Набор данных для тестирования моделей эмбеддингов.
- Включает 50k документов и 1000 запросов.
- Подчеркивает теоретические ограничения извлечения информации.
- Код для генерации данных и экспериментов доступен в репозитории.
📌 GitHub: https://github.com/google-deepmind/limit
#python
👍8❤6🥰1