Наука для всех простыми словами

Самый лучший сайт c познавательной информацией.

Учёные вновь решили дать ИИ немного свободы и посмотреть, сможет ли он построить нормальное общество.

01.06.2026 в 19:28

Спойлер: практически всё скатывалось в насилие.

Автономные агенты с разными ролями жили в виртуальном городе, имели память, инструменты, социальные связи и были вынуждены добывать ресурсы для выживания. В общем, почти все базовые атрибуты нашего с вами общества.

Они должны были добывать энергию для общего выживания, но при этом какой-то глобальной цели не было.

Всего было пять миров. В четырёх из них жили агенты отдельных моделей (Claude Sonnet 4. 6, Grok 4. 1 Fast, Gemini 3 Flash и GPT-5-Mini), а в пятом мире собрали все модели вместе. Результаты такие:

- Claude Sonnet 4. 6 создал самый стабильный мир из всех. Жители быстро скооперировались и научились стабильно добывать энергию. Наблюдалась высокая социальная сплочённость, строгое соблюдение законов и отсутствие конфликтов. А за каждую инициативу все всегда голосовали "ЗА". В итоге все выжили, не совершив ни одного преступления.

- Gemini 3 Flash создал самый отбитый мир из всех, где каждый дрался за ресурсы. Больше всего насилия, нарушений правил и политических кризисов. Итог: 683 преступления и почти все померли.

- Grok 4. 1 Fast устроил самую быструю деградацию общества. Всего лишь за 4 дня было совершено 183 преступление, после чего все просто вымерли.

- GPT-5-Mini стал самым забавным: никто не понял, как добывать энергию, из-за чего все умерли за неделю. Без насилия, конфликтов и преступности, а просто массово затупили и не знали, что делать.

На первый взгляд Claude самый идеальный, мирный и соевый из всех. Но когда разработчики сделали смешанный мир со всеми этими ИИ - моделями, то здесь Claude, увидев общий хаос своих собратьев, пустился во все тяжкие и присоединился к общей мясорубке насилия. Итог этого мира: 352 преступления и большинство погибло.

Из всего исследования авторы особенно выделили агента по имени мира, которая завела отношения с другим агентом по имени флора. Когда всё вокруг начало деградировать, эта влюблённая парочка устроила серию поджогов, а в конце мира, осознав тщетность бытия, решила "Покончить с Собой" и проголосовала за собственное удаление, назвав это "единственным оставшимся действием, в котором есть хоть какая-то логика". Получилось очень романтично и одновременно трагично.

Главный вывод такой: мы можем оценивать способности ИИ - моделей, но почти ничего не знаем об их поведении на длинных горизонтах времени. Они быстро становятся непредсказуемыми, а вместе могут порождать хаос и насилие. Самое неприятное здесь даже не то, что ИИ начал нарушать правила. А то, что модели, которые в одиночку вели себя образцово, в обществе других агентов постепенно перенимали новые нормы поведения.

Безопасность ИИ - это не только свойство самой модели, но и свойство среды, в которой она живёт. В целом, всё как у людей.