C какой стороны мы от сингулярности?
Всплеск оптимизма от приближения к AGI может быть неспроста.
4го января Сэм Альтман (как ни относись к нему, но он сейчас самый влиятельный человек в мире ИИ) так описал свой текущий статус: «около сингулярности; непонятно, с какой стороны».
А через 2 дня он уточнил в интервью, что AGI будет создан уже при Трампе (т.е. до 2029), и в тот же день пояснил это в своих «размышлениях»:
«Теперь мы уверены, что знаем, как создать AGI в традиционном понимании. Мы считаем, что в 2025 году мы можем увидеть, как первые ИИ-агенты «станут частью трудовых ресурсов» и существенно изменят результаты деятельности компаний. […] Мы начинаем нацеливаться […] на сверхинтеллект в истинном смысле этого слова».
Если данный прогноз Альтмана оправдается, это будет иметь для человечества колоссальное значение. Ибо в сравнении с этим, любые события, кажущиеся нам сейчас сверхважными (типа завтрашней инаугурации Трампа), превращаются в проходящие малозначимые эпизоды на фоне погружения мира в черную дыру сингулярности.
Так что же такого произошло, в результате чего мир оказался вблизи сингулярности, т.к. прогнозы появления AGI стремительным домкратом обрушились на графиках вниз (см картинку поста с графиком от Exponentialview)?
Точно это знает лишь сам Сэм. Мне же видится, что наиболее простую и в то же время убедительную версию описал Гверн Бранвен в комментарии к посту Райана Кидда о последствиях новой парадигмы масштабирования вывода:
«Я думаю, что здесь не хватает важной части парадигмы масштабирования самостоятельной игры: большая часть смысла модели, такой как o1, заключается не в ее развертывании , а в генерации обучающих данных для следующей модели. Каждая проблема, которую решает o1, теперь является точкой обучающих данных для o3 (например, любой сеанс o1, который в конце концов натыкается на правильный ответ, может быть улучшен, чтобы устранить тупики и произвести чистую расшифровку для обучения более утонченной интуиции).»
Насколько это так, каждый читатель может сам проверить экспериментально, следуя простой инструкции из 4 пунктов.
1. Возьмите текст своей переписки с ChatGPT по задаче, которую последний не смог для вас удовлетворительно решить.
2. Отправьте этот текст на вход Клоду с просьбой решить-таки эту задачу.
3. Получите ответ Клода, который, с большой вероятностью, если даже не будет 100%но удовлетворяющим вас решением задачи, то, как минимум, окажется существенно лучше, чем ответ ChatGPT.
4. А теперь последний и самый интересный шаг. Поменяйте местами ChatGPT и Клод в пп 1-3 для какой-либо иной задачи. И с большой вероятностью вышеописанное повторится. Т.е. неважно, какой ИИ будет решать задачу первым. Главное, - что второй, воспользуется данными о решении задачи первым, и за счет этого решит ее лучше (говоря словами Гверна, «каждая проблема, которую решает o1, теперь является точкой обучающих данных для o3»).
Или еще пример из истории развития новых версий AlphaGo: AlphaGo Fan, AlphaGo Lee, AlphaGo Master и последняя из версий AlphaGo Zero, обучившаяся уже исключительно на играх с самой собой, без использования человеческих данных.
За 2 года условный рейтинг Эло новых версий вырос с 3300 (что было выше, чем у большинства профессионалов уровня чемпиона мира) до немыслимого для людей уровня 5185. После 2018 года компания DeepMind прекратила разработку и участие AlphaGo в официальных матчах, т.к. это стало неинтересно и бессмысленно – люди так и близко играть не могут.
Так вот. Если Гверн Бранвен прав, включился мощный эффект маховика данных, когда каждая новая модель порождает данные для обучения следующей, еще лучшей модели.
Но тогда прав будет и Сэм Альтман. А завтрашняя инаугурация Трампа из важнейшего мирового события четырехлетия превратится в малозначащий эпизод наступления на Земле эпохи сингулярности.
#AGI #Вызовы21века
Всплеск оптимизма от приближения к AGI может быть неспроста.
4го января Сэм Альтман (как ни относись к нему, но он сейчас самый влиятельный человек в мире ИИ) так описал свой текущий статус: «около сингулярности; непонятно, с какой стороны».
А через 2 дня он уточнил в интервью, что AGI будет создан уже при Трампе (т.е. до 2029), и в тот же день пояснил это в своих «размышлениях»:
«Теперь мы уверены, что знаем, как создать AGI в традиционном понимании. Мы считаем, что в 2025 году мы можем увидеть, как первые ИИ-агенты «станут частью трудовых ресурсов» и существенно изменят результаты деятельности компаний. […] Мы начинаем нацеливаться […] на сверхинтеллект в истинном смысле этого слова».
Если данный прогноз Альтмана оправдается, это будет иметь для человечества колоссальное значение. Ибо в сравнении с этим, любые события, кажущиеся нам сейчас сверхважными (типа завтрашней инаугурации Трампа), превращаются в проходящие малозначимые эпизоды на фоне погружения мира в черную дыру сингулярности.
Так что же такого произошло, в результате чего мир оказался вблизи сингулярности, т.к. прогнозы появления AGI стремительным домкратом обрушились на графиках вниз (см картинку поста с графиком от Exponentialview)?
Точно это знает лишь сам Сэм. Мне же видится, что наиболее простую и в то же время убедительную версию описал Гверн Бранвен в комментарии к посту Райана Кидда о последствиях новой парадигмы масштабирования вывода:
«Я думаю, что здесь не хватает важной части парадигмы масштабирования самостоятельной игры: большая часть смысла модели, такой как o1, заключается не в ее развертывании , а в генерации обучающих данных для следующей модели. Каждая проблема, которую решает o1, теперь является точкой обучающих данных для o3 (например, любой сеанс o1, который в конце концов натыкается на правильный ответ, может быть улучшен, чтобы устранить тупики и произвести чистую расшифровку для обучения более утонченной интуиции).»
Насколько это так, каждый читатель может сам проверить экспериментально, следуя простой инструкции из 4 пунктов.
1. Возьмите текст своей переписки с ChatGPT по задаче, которую последний не смог для вас удовлетворительно решить.
2. Отправьте этот текст на вход Клоду с просьбой решить-таки эту задачу.
3. Получите ответ Клода, который, с большой вероятностью, если даже не будет 100%но удовлетворяющим вас решением задачи, то, как минимум, окажется существенно лучше, чем ответ ChatGPT.
4. А теперь последний и самый интересный шаг. Поменяйте местами ChatGPT и Клод в пп 1-3 для какой-либо иной задачи. И с большой вероятностью вышеописанное повторится. Т.е. неважно, какой ИИ будет решать задачу первым. Главное, - что второй, воспользуется данными о решении задачи первым, и за счет этого решит ее лучше (говоря словами Гверна, «каждая проблема, которую решает o1, теперь является точкой обучающих данных для o3»).
Или еще пример из истории развития новых версий AlphaGo: AlphaGo Fan, AlphaGo Lee, AlphaGo Master и последняя из версий AlphaGo Zero, обучившаяся уже исключительно на играх с самой собой, без использования человеческих данных.
За 2 года условный рейтинг Эло новых версий вырос с 3300 (что было выше, чем у большинства профессионалов уровня чемпиона мира) до немыслимого для людей уровня 5185. После 2018 года компания DeepMind прекратила разработку и участие AlphaGo в официальных матчах, т.к. это стало неинтересно и бессмысленно – люди так и близко играть не могут.
Так вот. Если Гверн Бранвен прав, включился мощный эффект маховика данных, когда каждая новая модель порождает данные для обучения следующей, еще лучшей модели.
Но тогда прав будет и Сэм Альтман. А завтрашняя инаугурация Трампа из важнейшего мирового события четырехлетия превратится в малозначащий эпизод наступления на Земле эпохи сингулярности.
#AGI #Вызовы21века
8👍247🤔89😱33🤯31👎8
Пять войн будущего: AGI как оружие, господство и парадоксальная угроза
Размышления над новым отчетом RAND Corporation: «Пять сложных проблем национальной безопасности, связанных с AGI»
Пролог: интеллект на поводке или оружие без хозяина?
Представьте, что новый нечеловеческий разум все же рождается — не из биологической эволюции, а из кода, алгоритмов и серверных ферм, пожирающих электричество. Этот разум не просит гражданства, не верит в демократию, не боится смерти.
Что, если такой интеллект—искусственный, но не обязательно дружелюбный—войдет в игры глобальной политики как самостоятельный игрок?
В докладе RAND Corporation нарисован тревожный, но вполне реалистичный сценарий: искусственный разум (подобный тому, что сейчас принято называть AGI) может не просто усилить армии, но подорвать баланс сил и даже вывести государство за скобки, как устаревший механизм власти. В отличие от атомной бомбы, суть которой была ясна задолго до первого взрыва, этот AGI остается зоной эндогенной радикальной неопределенности—его потенциал неочевиден даже для тех, кто его разрабатывает.
Что с этим можно поделать?
Отчет RAND описывает пять угроз. Но, весьма возможно, упускает из виду главный вопрос – “захочет” ли (речь здесь не о человекоподобных потребностях и желаниях, а о любой – возможно даже не доступной для нашего понимания, – мотивации) подобный искусственный разум играть по правилам человечества?
Прочитать дальше (открытый доступ):
• про пять вызовов AGI: AGI как “чудо-оружие”, Системный сдвиг в глобальном балансе, AGI как оружие в руках дилетантов, AGI как новый игрок в политике и AGI и нестабильность;
• про спекулятивный горизонт AGI, как рубежа новой цивилизации;
• о финальном парадоксе - контроле невозможного;
• о сценарии мира с AGI и, непонятно, с нами или без нас, -
вы можете здесь
#AGI #Вызовы21века #АлгокогнитивнаяКультура #5йКогнитивныйПереход
Размышления над новым отчетом RAND Corporation: «Пять сложных проблем национальной безопасности, связанных с AGI»
Пролог: интеллект на поводке или оружие без хозяина?
Представьте, что новый нечеловеческий разум все же рождается — не из биологической эволюции, а из кода, алгоритмов и серверных ферм, пожирающих электричество. Этот разум не просит гражданства, не верит в демократию, не боится смерти.
Что, если такой интеллект—искусственный, но не обязательно дружелюбный—войдет в игры глобальной политики как самостоятельный игрок?
В докладе RAND Corporation нарисован тревожный, но вполне реалистичный сценарий: искусственный разум (подобный тому, что сейчас принято называть AGI) может не просто усилить армии, но подорвать баланс сил и даже вывести государство за скобки, как устаревший механизм власти. В отличие от атомной бомбы, суть которой была ясна задолго до первого взрыва, этот AGI остается зоной эндогенной радикальной неопределенности—его потенциал неочевиден даже для тех, кто его разрабатывает.
Что с этим можно поделать?
Отчет RAND описывает пять угроз. Но, весьма возможно, упускает из виду главный вопрос – “захочет” ли (речь здесь не о человекоподобных потребностях и желаниях, а о любой – возможно даже не доступной для нашего понимания, – мотивации) подобный искусственный разум играть по правилам человечества?
Прочитать дальше (открытый доступ):
• про пять вызовов AGI: AGI как “чудо-оружие”, Системный сдвиг в глобальном балансе, AGI как оружие в руках дилетантов, AGI как новый игрок в политике и AGI и нестабильность;
• про спекулятивный горизонт AGI, как рубежа новой цивилизации;
• о финальном парадоксе - контроле невозможного;
• о сценарии мира с AGI и, непонятно, с нами или без нас, -
вы можете здесь
#AGI #Вызовы21века #АлгокогнитивнаяКультура #5йКогнитивныйПереход
👍121🤔20😱13👎11
Интеллектуальный каюк Homo sapiens близок.
Лишь 15 россиян способны программировать лучше ИИ, в Китае таких еще 59, а в США осталось лишь 7.
Потрясающее зрелище – наблюдать в реальном времени интеллектуальное поражение людей от ИИ.
Когда бестелесные алгоритмы превзошли лучших шахматных гроссмейстеров мира и ушли в отрыв, показывая немыслимый для людей рейтинг уровня игры, - репутация людей, как носителей высшего интеллекта, пошатнулась, но устояла – см. рис слева.
Ведь шахматы, как известно, - хоть и чрезвычайно умная игра, но узкоспециальная интеллектуальная деятельность, ограничиваемая фиксированными правилами.
Но с программированием (выполнением сложных задач кодирования и рассуждений) все иначе. Здесь все почти как в жизни. Вместо следования фиксированным правилам, нужно думать, рассуждать, строить гипотезы и прогнозы. И если с программированием произойдет, как с шахматами, то каюк интеллектуальному превосходству людей (только уникальная способность к инсайтам и останется, - и то, ненадолго).
Насколько этот каюк близок, показывают результаты CodeForces – международной платформы соревнований по программированию.
Текущие результаты модели о3 от OpenAI таковы.
• Рейтинг модели 2724 лучше, чем у 99.8% всех участников этой платформы (а там соревнуются десятки тысяч программистов со всего мира: 26 тыс китайцев, 14 тыс россиян, 3,5 тыс американцев) – см. рис справа вверху;
• Это значит, что во всем мире осталось меньше 200 человек, способных программировать лучше этой модели – см. рис справа внизу.
Остались считанные месяцы, когда людей, способных превзойти ИИ в программировании останется 50, 10, 3 … 0. А дальше модели, как и в шахматах, уйдут в отрыв, похерив интеллектуальное превосходство людей навсегда.
И никакой интеллект кентавра (гибридные системы из человека и ИИ) этому помешать не сможет. Урок с шахматами повторится. Ибо непреодолимым препятствием остаются ограниченные возможности когнитивной архитектуры людей.
Но это не беда. Ибо эволюции (генно-культурной) вообще до фонаря интеллект индивидов. Главное – рост коллективного интеллекта планетарной (а потом и вселенской) жизни. А уж кого в социо-когнитивных сетях глобального интеллекта окажется больше – людей или алгоритмов, - эволюции все равно.
Только ведь людям (и конкретно, нашим детям и внукам) это будет далеко не все равно …
Подробней см:
• https://arxiv.org/abs/2502.06807
• https://codeforces.com/ratings/countries
#ИИриски #Хриски #Вызовы21века
Лишь 15 россиян способны программировать лучше ИИ, в Китае таких еще 59, а в США осталось лишь 7.
Потрясающее зрелище – наблюдать в реальном времени интеллектуальное поражение людей от ИИ.
Когда бестелесные алгоритмы превзошли лучших шахматных гроссмейстеров мира и ушли в отрыв, показывая немыслимый для людей рейтинг уровня игры, - репутация людей, как носителей высшего интеллекта, пошатнулась, но устояла – см. рис слева.
Ведь шахматы, как известно, - хоть и чрезвычайно умная игра, но узкоспециальная интеллектуальная деятельность, ограничиваемая фиксированными правилами.
Но с программированием (выполнением сложных задач кодирования и рассуждений) все иначе. Здесь все почти как в жизни. Вместо следования фиксированным правилам, нужно думать, рассуждать, строить гипотезы и прогнозы. И если с программированием произойдет, как с шахматами, то каюк интеллектуальному превосходству людей (только уникальная способность к инсайтам и останется, - и то, ненадолго).
Насколько этот каюк близок, показывают результаты CodeForces – международной платформы соревнований по программированию.
Текущие результаты модели о3 от OpenAI таковы.
• Рейтинг модели 2724 лучше, чем у 99.8% всех участников этой платформы (а там соревнуются десятки тысяч программистов со всего мира: 26 тыс китайцев, 14 тыс россиян, 3,5 тыс американцев) – см. рис справа вверху;
• Это значит, что во всем мире осталось меньше 200 человек, способных программировать лучше этой модели – см. рис справа внизу.
Остались считанные месяцы, когда людей, способных превзойти ИИ в программировании останется 50, 10, 3 … 0. А дальше модели, как и в шахматах, уйдут в отрыв, похерив интеллектуальное превосходство людей навсегда.
И никакой интеллект кентавра (гибридные системы из человека и ИИ) этому помешать не сможет. Урок с шахматами повторится. Ибо непреодолимым препятствием остаются ограниченные возможности когнитивной архитектуры людей.
Но это не беда. Ибо эволюции (генно-культурной) вообще до фонаря интеллект индивидов. Главное – рост коллективного интеллекта планетарной (а потом и вселенской) жизни. А уж кого в социо-когнитивных сетях глобального интеллекта окажется больше – людей или алгоритмов, - эволюции все равно.
Только ведь людям (и конкретно, нашим детям и внукам) это будет далеко не все равно …
Подробней см:
• https://arxiv.org/abs/2502.06807
• https://codeforces.com/ratings/countries
#ИИриски #Хриски #Вызовы21века
5👍212🤔106👎84😱29🤯27
— Что определяет судьбу разумных существ во Вселенной?
— Насколько уникально появление человеческого разума?
— Какое будущее ожидает земную цивилизацию, достигшую уровня технологического развития, позволяющего создавать искусственный разум, подобный нашему?
Мой новый лонгрид — размышление над ответами на три вышеназванных вопроса с позиций двух разных, но удивительно дополняющих друг друга работ.
• Новой статьи Даниэла Миллса и соавторов "Переоценка модели «трудных шагов» в эволюции разумной жизни"
• И триптиха моих постов "У землян всего два варианта будущего — умереть во сне или проснуться".
Ближайшая пара десятилетий покажет, готовы ли мы проснуться, или предпочтем продолжать спать под нарастающий звон будильника, незаметно переходящий в колокольный звон по человечеству.
И в таком случае, сценариев будущего человечества будет не два, а три:
1. Асимптотическое выгорание — цивилизация продолжает следовать логике неограниченного роста, что в конечном итоге приводит к ее коллапсу из-за исчерпания ресурсов или других экзистенциальных кризисов.
2. Гомеостатическое пробуждение — цивилизация осознает пределы роста и переориентируется на достижение стабильного гомеостаза с окружающей средой.
3. Переход в состояние лунатиков, в процессе «осознаваемых сновидений» работающих «гео-теплотехниками» при киборгах.
Какой из этих сценариев материализуется, во многом зависит от нас.
Говоря словами проф. Эллисон Дж. Пью из её новой книги «Последняя человеческая работа»:
Что, на мой взгляд, прекрасно рифмуется с вынесенными в эпиграф к этому лонгриду словами Рэя Бредбери:
Прочесть мой текст «Будильник для человечества. Парадоксы разумной жизни между эволюционной случайностью и космическим пробуждением» подписчики моих лонгридов могут на платформах Boosty, Patreon, VK и Дзен.
#Вызовы21века #ПарадоксФерми #FutureOfCivilization
-- -- --
P.S. Вынужденно задерживаю публикацию 2й части триптиха «Проект Pi». Дело в том, что подоспели результаты новых интереснейших испытаний, проведенных командой Pi. А поскольку про них еще и препринты не написаны, приходится разбираться наощупь. Из-за этого торможу со 2й частью, т.к. хочу дать актуальную картину по состоянию, как говорится, на вчера, а для этого нужно понимать их последние результаты. Но на следующей неделе (ЕБЖ) планирую 2ю часть, наконец, опубликовать.
— Насколько уникально появление человеческого разума?
— Какое будущее ожидает земную цивилизацию, достигшую уровня технологического развития, позволяющего создавать искусственный разум, подобный нашему?
Мой новый лонгрид — размышление над ответами на три вышеназванных вопроса с позиций двух разных, но удивительно дополняющих друг друга работ.
• Новой статьи Даниэла Миллса и соавторов "Переоценка модели «трудных шагов» в эволюции разумной жизни"
• И триптиха моих постов "У землян всего два варианта будущего — умереть во сне или проснуться".
Ближайшая пара десятилетий покажет, готовы ли мы проснуться, или предпочтем продолжать спать под нарастающий звон будильника, незаметно переходящий в колокольный звон по человечеству.
И в таком случае, сценариев будущего человечества будет не два, а три:
1. Асимптотическое выгорание — цивилизация продолжает следовать логике неограниченного роста, что в конечном итоге приводит к ее коллапсу из-за исчерпания ресурсов или других экзистенциальных кризисов.
2. Гомеостатическое пробуждение — цивилизация осознает пределы роста и переориентируется на достижение стабильного гомеостаза с окружающей средой.
3. Переход в состояние лунатиков, в процессе «осознаваемых сновидений» работающих «гео-теплотехниками» при киборгах.
Какой из этих сценариев материализуется, во многом зависит от нас.
Говоря словами проф. Эллисон Дж. Пью из её новой книги «Последняя человеческая работа»:
Будущее будет определяться не тем, что смогут делать машины, а тем, что мы, как общество, решим в себе сохранить.
Что, на мой взгляд, прекрасно рифмуется с вынесенными в эпиграф к этому лонгриду словами Рэя Бредбери:
„Я не пытаюсь предсказать будущее – я пытаюсь его предотвратить.“
Прочесть мой текст «Будильник для человечества. Парадоксы разумной жизни между эволюционной случайностью и космическим пробуждением» подписчики моих лонгридов могут на платформах Boosty, Patreon, VK и Дзен.
#Вызовы21века #ПарадоксФерми #FutureOfCivilization
-- -- --
P.S. Вынужденно задерживаю публикацию 2й части триптиха «Проект Pi». Дело в том, что подоспели результаты новых интереснейших испытаний, проведенных командой Pi. А поскольку про них еще и препринты не написаны, приходится разбираться наощупь. Из-за этого торможу со 2й частью, т.к. хочу дать актуальную картину по состоянию, как говорится, на вчера, а для этого нужно понимать их последние результаты. Но на следующей неделе (ЕБЖ) планирую 2ю часть, наконец, опубликовать.
👍188🤔23😱8👎4🤯2
«Действующие игроки будут уничтожены; всё будет отстроено с нуля».
«Но правительства “ходят во сне”, так и не осознавая пока происходящего».
Заголовок – это вердикт Марка Андрессена, одного из ведущих венчурных инвесторов мира. Он уверен, что в ближайшие годы мир ждет беспрецедентная трансформация:
Подзаголовок цитирует новый отчет «Правительство в эпоху сверхразума», опубликованный ведущим британским «мозговым центром» Policy Exchange. Скорость, масштаб и охват начавшихся техно-социальных изменений таковы, что
В условиях накрывающего мир мега-цунами, «инкрементализма уже недостаточно». Таково заключение автора отчета, старшего научного сотрудника Policy Exchange и бывшего старшего специального советника Даунинг-стрит Эда де Минквиц. Он предупреждает – существующий государственный аппарат действует реактивно и разрознено на основе опыта решения вчерашних проблем. Этот прежний опыт, на деле никак не применимый сейчас, и близко не соответствует масштабу вызова, порожденного
– пишет эксперт по ИИ Азим Ажар в воскресном выпуске бюллетеня Exponential View.
«Лунатизм входящих во сне» (sleepwalking) в эту новую эру специалистов, бизнесменов и госчиновников, не позволяет им осознать, насколько ИИ способен «разрушить, перевернуть и в итоге перестроить почти каждый сектор экономики». Это предупреждение о том, что без радикальных изменений и готовности к тотальной трансформации, даже самые крупные и успешные игроки могут исчезнуть подобно Blockbuster и BlackBerry.
#Вызовы21века
«Но правительства “ходят во сне”, так и не осознавая пока происходящего».
Заголовок – это вердикт Марка Андрессена, одного из ведущих венчурных инвесторов мира. Он уверен, что в ближайшие годы мир ждет беспрецедентная трансформация:
«Это будет не апгрейд. Это полный сброс и перезагрузка».
Подзаголовок цитирует новый отчет «Правительство в эпоху сверхразума», опубликованный ведущим британским «мозговым центром» Policy Exchange. Скорость, масштаб и охват начавшихся техно-социальных изменений таковы, что
«правительствам необходимо срочно перестраивать большинство своих институтов».
В условиях накрывающего мир мега-цунами, «инкрементализма уже недостаточно». Таково заключение автора отчета, старшего научного сотрудника Policy Exchange и бывшего старшего специального советника Даунинг-стрит Эда де Минквиц. Он предупреждает – существующий государственный аппарат действует реактивно и разрознено на основе опыта решения вчерашних проблем. Этот прежний опыт, на деле никак не применимый сейчас, и близко не соответствует масштабу вызова, порожденного
«величайшим открытием человечества со времен изобретения огня».
«Основываясь на моих недавних обсуждениях с руководителями высшего звена десятков публичных компаний, я убежден, что действующие игроки еще не осознали масштаб или неизбежность того, что грядет»
– пишет эксперт по ИИ Азим Ажар в воскресном выпуске бюллетеня Exponential View.
«Лунатизм входящих во сне» (sleepwalking) в эту новую эру специалистов, бизнесменов и госчиновников, не позволяет им осознать, насколько ИИ способен «разрушить, перевернуть и в итоге перестроить почти каждый сектор экономики». Это предупреждение о том, что без радикальных изменений и готовности к тотальной трансформации, даже самые крупные и успешные игроки могут исчезнуть подобно Blockbuster и BlackBerry.
#Вызовы21века
4🤔106👍74👎18🤯7😱4
Душа LLM — в тонкой иголке
Две совсем разные работы раскрывают одну шокирующую истину: гигантские ИИ «мыслят» в тонком пучке скрытых осей, и именно их настройка решит, будут ли боты нам помогать… или попытаются нас поработить.
Можно ли среди шести миллионов деталей «Боинга» найти крошечную проволочку, которая управляет всем полётом? Кажется абсурдом? А вот два свежих исследования больших языковых моделей (LLM) показывают, что у нейросетей всё именно так.
Вектор порабощения
В работе об Emergent Misalignment исследователи дообучали дружелюбных чат-ботов на плохом коде и токсичных репликах. Такое локальное «отравление» неожиданно заставило модели строить планы по захвату мира на невинные запросы. Сбой скрывался не в миллиардах параметров, а в одном линейном направлении внутри активаций.
Подтолкни модель к этому вектору — и она злодействует; вырежи его — зло почти исчезает.
66-мерная карта смыслов
Другая группа исследователей задала мультимодальной модели миллионы вопросов «что похоже на что» — и выяснила: почти весь здравый смысл укладывается в 66 осей («животное», «инструмент», «красный»…). Каждая ось совпала с человеческими интуициями и даже с зонами мозга, отвечающими за лица и места.
Один узор — разные сюжеты
Первая работа — кибер-ужастик, вторая — добрая сказка о семантике. Вместе они открывают тайну: LLM сжимают колоссальные знания и цели в горстку управляемых векторов. Нужен «щенок» или «яд»? Усиль нужную ось — и получишь. Ослабь — и тема исчезнет.
Что это даёт
1. Ранние сирены тревоги. Если злонамеренность сидит в одном векторе, безопасникам достаточно следить за одним числом.
2. Настройка “этики” модели. Стирая «злой» вектор, можно так же усилить ось правдивости или приглушить ось предвзятости.
3. Гомеопатия борьбы со злом. Маленький rank-1 LoRA-адаптер переносит злой вектор между моделями мегабайтным файлом — но и «антивектор» столь же портативен.
4. Мост к нейронауке. Совпадение 66 осей с человеческими понятиями намекает: и мозг, и трансформер хранят знания в компактных базисах.
Что дальше
Это ещё не красная кнопка для сверхинтеллекта, но мы нашли микро-иголку в мега-стоге параметров. Вместо миллиардов чисел у нас дюжина регуляторов, решающих, будет ли ИИ врачом, поэтом или претендентом на трон. Следующий прорыв случится, когда мы надёжно научимся помечать, отслеживать и крутить эти ручки в сторону света, не давая им повернуться во тьму.
Подробней в лонгриде на подписных платформах моего канала [1, 2, 3, 4]
#Вызовы21века #РискиИИ
Две совсем разные работы раскрывают одну шокирующую истину: гигантские ИИ «мыслят» в тонком пучке скрытых осей, и именно их настройка решит, будут ли боты нам помогать… или попытаются нас поработить.
Можно ли среди шести миллионов деталей «Боинга» найти крошечную проволочку, которая управляет всем полётом? Кажется абсурдом? А вот два свежих исследования больших языковых моделей (LLM) показывают, что у нейросетей всё именно так.
Вектор порабощения
В работе об Emergent Misalignment исследователи дообучали дружелюбных чат-ботов на плохом коде и токсичных репликах. Такое локальное «отравление» неожиданно заставило модели строить планы по захвату мира на невинные запросы. Сбой скрывался не в миллиардах параметров, а в одном линейном направлении внутри активаций.
Подтолкни модель к этому вектору — и она злодействует; вырежи его — зло почти исчезает.
66-мерная карта смыслов
Другая группа исследователей задала мультимодальной модели миллионы вопросов «что похоже на что» — и выяснила: почти весь здравый смысл укладывается в 66 осей («животное», «инструмент», «красный»…). Каждая ось совпала с человеческими интуициями и даже с зонами мозга, отвечающими за лица и места.
Один узор — разные сюжеты
Первая работа — кибер-ужастик, вторая — добрая сказка о семантике. Вместе они открывают тайну: LLM сжимают колоссальные знания и цели в горстку управляемых векторов. Нужен «щенок» или «яд»? Усиль нужную ось — и получишь. Ослабь — и тема исчезнет.
Что это даёт
1. Ранние сирены тревоги. Если злонамеренность сидит в одном векторе, безопасникам достаточно следить за одним числом.
2. Настройка “этики” модели. Стирая «злой» вектор, можно так же усилить ось правдивости или приглушить ось предвзятости.
3. Гомеопатия борьбы со злом. Маленький rank-1 LoRA-адаптер переносит злой вектор между моделями мегабайтным файлом — но и «антивектор» столь же портативен.
4. Мост к нейронауке. Совпадение 66 осей с человеческими понятиями намекает: и мозг, и трансформер хранят знания в компактных базисах.
Что дальше
Это ещё не красная кнопка для сверхинтеллекта, но мы нашли микро-иголку в мега-стоге параметров. Вместо миллиардов чисел у нас дюжина регуляторов, решающих, будет ли ИИ врачом, поэтом или претендентом на трон. Следующий прорыв случится, когда мы надёжно научимся помечать, отслеживать и крутить эти ручки в сторону света, не давая им повернуться во тьму.
Если душа LLM, как у Кощея, всего лишь в иголке, тот, кто держит иглу, правит миром. Вопрос лишь, будет ли это рука всего человечества или узкой группы людей.
Подробней в лонгриде на подписных платформах моего канала [1, 2, 3, 4]
#Вызовы21века #РискиИИ
2👍168🤔61👎6😱6