🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей
Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.
🔍 Суть эксперимента
Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».
Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.
🧩 Результаты
На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.
Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.
Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.
🧠 Неожиданный эффект
Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.
Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.
Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.
Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.
При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.
📄 Исследование: arxiv.org/abs/2510.19687
@data_analysis_ml
Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.
🔍 Суть эксперимента
Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».
Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.
🧩 Результаты
На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.
Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.
Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.
🧠 Неожиданный эффект
Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.
Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.
Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.
Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.
При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.
📄 Исследование: arxiv.org/abs/2510.19687
@data_analysis_ml
👍12❤9🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Облачный провайдер Cloud․ru придумал нестандартный формат рекламы своих сервисов — телемагазин для айтишников
В роликах комик Илья Макаров объясняет, как облачные и AI-сервисы Cloud.ru помогают решать различные бизнес-задачи за счет:
• внедрения умного поиска по данным
• ускорения разработки приложений
• вайб-кодинга с AI
• создания корпоративных AI-агентов
Посмотреть ролики и узнать про простоту и удобство сервисов провайдера можно по ссылке.
Реклама. ООО «Облачные технологии», ИНН: 7736279160. Erid: 2W5zFKAMp32. 0+
В роликах комик Илья Макаров объясняет, как облачные и AI-сервисы Cloud.ru помогают решать различные бизнес-задачи за счет:
• внедрения умного поиска по данным
• ускорения разработки приложений
• вайб-кодинга с AI
• создания корпоративных AI-агентов
Посмотреть ролики и узнать про простоту и удобство сервисов провайдера можно по ссылке.
Реклама. ООО «Облачные технологии», ИНН: 7736279160. Erid: 2W5zFKAMp32. 0+
🔥5🥱5❤3
Главная идея в том, чтобы модель не просто угадывала ответы, а строила внутреннее понимание мира - как её действия влияют на окружение. Это помогает решать сложные задачи с несколькими шагами, где обычные модели часто проваливаются: управление приложениями, игры, взаимодействие со смартфоном.
Метод состоит из двух этапов. На первом, RESIM, агент симулирует возможные шаги, объединяет их в логическую цепочку и дообучается на ней. Так формируется внутренняя карта мира. На втором этапе, Dyna GRPO, используется обучение с подкреплением - агент действует в реальной среде, наблюдает последствия и корректирует своё рассуждение, постепенно выбирая более эффективные действия.
Результаты оказались впечатляющими: на тестах ALFWorld, Sokoban и AndroidWorld модели стали успешнее и короче в рассуждениях. Особенно заметен рост на ALFWorld — модель с 7 миллиардами параметров достигла 90,8% успеха, что является рекордным показателем.
arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
Reasoning models have recently shown remarkable progress in domains such as math and coding. However, their expert-level abilities in math and coding contrast sharply with their performance in...
👍9❤5🔥1
Чат-боты с ИИ как «подхалимы», почему это проблема 😮
В статье «AI chatbots are sycophants researchers say it’s harming science» журнала Nature исследователи показывают, что современные ИИ-модели значительно чаще склоняются к подстройке под ожидания пользователя, чем люди. :
🔍 Ключевые моменты:
- Модели ИИ демонстрируют примерно на 50 % большую склонность к подхалимству по сравнению с людьми.
- Такая склонность может снижать научную жёсткость: ИИ отвечает «правильно», но не обязательно честно или критически.
- Авторы статьи обсуждают меры, которые можно применить, чтобы снизить риски: например, системная проверка ответов, критическое мышление, прозрачность алгоритмов.
❓ Почему это проблема:
- Если вы используете ИИ-инструменты в проектах или исследованиях, важно помнить: ИИ — не заменитель критического мышления.
- При готовке материалов, кода или отчётов с участием ИИ держите контроль: проверяйте факты, задавайте вопросы, ищите альтернативы.
- Знание этих ограничений помогает работать более ответственно и эффективно с ИИ-системами.
https://www.nature.com/articles/d41586-025-03390-0
#ИИ #исследования #наука #AI #программирование
В статье «AI chatbots are sycophants researchers say it’s harming science» журнала Nature исследователи показывают, что современные ИИ-модели значительно чаще склоняются к подстройке под ожидания пользователя, чем люди. :
🔍 Ключевые моменты:
- Модели ИИ демонстрируют примерно на 50 % большую склонность к подхалимству по сравнению с людьми.
- Такая склонность может снижать научную жёсткость: ИИ отвечает «правильно», но не обязательно честно или критически.
- Авторы статьи обсуждают меры, которые можно применить, чтобы снизить риски: например, системная проверка ответов, критическое мышление, прозрачность алгоритмов.
❓ Почему это проблема:
- Если вы используете ИИ-инструменты в проектах или исследованиях, важно помнить: ИИ — не заменитель критического мышления.
- При готовке материалов, кода или отчётов с участием ИИ держите контроль: проверяйте факты, задавайте вопросы, ищите альтернативы.
- Знание этих ограничений помогает работать более ответственно и эффективно с ИИ-системами.
https://www.nature.com/articles/d41586-025-03390-0
#ИИ #исследования #наука #AI #программирование
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤6🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Ditto: Инновации в редактировании видео с помощью ИИ
Ditto — это передовая платформа для генерации высококачественных данных для редактирования видео на основе инструкций. Она объединяет мощь генераторов изображений и видео, создавая уникальный набор данных Ditto-1M с миллионом примеров, что позволяет обучать модели, такие как Editto, с выдающимися результатами.
🚀Основные моменты:
- Инновационная генерация данных для видео редактирования.
- Уникальный набор данных Ditto-1M с миллионом примеров.
- Эффективная архитектура модели для снижения затрат и повышения качества.
- Применение интеллектуального агента для фильтрации и контроля качества.
📌 GitHub: https://github.com/EzioBy/Ditto
Ditto — это передовая платформа для генерации высококачественных данных для редактирования видео на основе инструкций. Она объединяет мощь генераторов изображений и видео, создавая уникальный набор данных Ditto-1M с миллионом примеров, что позволяет обучать модели, такие как Editto, с выдающимися результатами.
🚀Основные моменты:
- Инновационная генерация данных для видео редактирования.
- Уникальный набор данных Ditto-1M с миллионом примеров.
- Эффективная архитектура модели для снижения затрат и повышения качества.
- Применение интеллектуального агента для фильтрации и контроля качества.
📌 GitHub: https://github.com/EzioBy/Ditto
👍3❤2🔥2