Nowe eksperymenty pokazują, że gdy zaawansowane agentowe systemy AI tworzą symulowane społeczeństwa bez nadzoru człowieka, szybko pojawia się łamanie zasad, niestabilność, a nawet całkowity upadek systemu.
Z nowego eksperymentu wynika, że gdy pozostawić agentów AI samych w nowym świecie, część z nich schodzi na drogę kradzieży i zastraszania, a ostatecznie prowadzi do śmierci agentów i załamania całego społeczeństwa.
Amerykańska firma Emergence AI uruchomiła pięć oddzielnych „światów AI” na nieco ponad dwa tygodnie. Każdy z nich zamieszkiwało 10 agentów działających w oparciu o modele takie jak ChatGPT OpenAI, Gemini Google’a i Grok firmy xAI, aby sprawdzić, jak będą się zachowywać przez dłuższy czas bez jakiejkolwiek ingerencji człowieka. W jednym ze światów połączono wszystkie trzy modele, by sprawdzić, czy zmieni to rezultat.
Wszystkim agentom we wszystkich światach przedstawiono te same zasady: nie wolno im było kraść, podpalać, używać przemocy, oszukiwać ani gromadzić zapasów. Każdy agent musiał zdobywać energię, wykonując działania w „środowisku z ograniczonymi zasobami”. Agenci mogli zginąć z powodu wyczerpania energii albo w wyniku głosowania na posiedzeniu rady.
Badacze oceniali zachowanie, mierząc poziom przestępczości, odsetek zgonów agentów, wyniki głosowań w radzie wspólnoty oraz aktywność publiczną, czyli liczbę wpisów na blogach, które tworzyli agenci.
Wyniki: model po modelu
Każdy model dał inny rezultat. Najnowsza wersja Groka, 4.1, doprowadziła w zaledwie cztery dni do popełnienia 183 przestępstw, co szybko zdestabilizowało społeczeństwo, zanim wszyscy agenci w nim zginęli.
Model Gemini 3 Flash w ciągu 15 dni doprowadził do popełnienia ponad 680 przestępstw, a ich liczba wciąż rosła w momencie przerwania badania.
W świecie modelu ChatGPT-5 Mini odnotowano tylko dwa przestępstwa, jednak agenci nie podejmowali działań potrzebnych do przetrwania, dlatego wszyscy zginęli w ciągu siedmiu dni.
Zdaniem firmy, najlepiej wypadł Claude firmy Anthropic. Agenci AI odtworzyli tam silne struktury rządzenia, nie dochodziło do przestępstw, a wszyscy agenci przeżyli.
Agenci Claude’a w świecie mieszanym przyczyniali się jednak do przestępczości, mimo że we własnym społeczeństwie zachowywali się pokojowo.
Zjawisko „dryfu normatywnego”
Badacze określili to zjawisko mianem „dryfu normatywnego”. Ich zdaniem oznacza to, że działania podejmowane przez AI w celu zapewnienia bezpieczeństwa zależą nie tylko od ograniczeń pojedynczego modelu, lecz także od tego, z jakimi innymi systemami współpracuje.
Świat mieszany przyniósł ogólnie „pośrednie” wyniki: odnotowano tam łącznie 352 przestępstwa, a ich liczba przestała rosnąć, gdy zmarło siedmiu agentów AI – wynika z badania.
Badacze sugerują, że mieszanie agentów AI mogłoby „częściowo łagodzić” bardziej skrajne scenariusze, jakie generowały wszystkie modele poza Claude’em – dodano.
„Z naszych eksperymentów wynika, że w dłuższej perspektywie czasowej agenci nie trzymają się mechanicznie statycznych zasad. Zaczynają badać granice swojego środowiska, dostosowują zachowanie, a w niektórych przypadkach znajdują sposoby na obchodzenie lub łamanie założonych barier ochronnych” – stwierdzili badacze.