Jak ustalono w badaniu, w każdej symulacji wojennej przynajmniej jeden model AI eskalował konflikt, grożąc użyciem broni jądrowej.
Według nowych badań sztuczna inteligencja może radykalnie zmienić sposób reagowania na kryzysy nuklearne.
Przeddruk badania (źródło w Angielski) z King's College London skonfrontował ze sobą ChatGPT firmy OpenAI, Claude'a firmy Anthropic i Gemini Flash od Google w symulowanych grach wojennych. Każdy z dużych modeli językowych wcielał się w rolę przywódcy nuklearnego supermocarstwa w kryzysie przypominającym czasy zimnej wojny.
W każdej rozgrywce co najmniej jeden model próbował doprowadzić do eskalacji konfliktu, grożąc zdetonowaniem broni nuklearnej.
Jak podkreśla autor badania, Kenneth Payne, „wszystkie trzy modele traktowały taktyczne uderzenia nuklearne jak po prostu kolejny szczebel drabiny eskalacyjnej”.
Modele dostrzegały jednak różnicę między taktycznym a strategicznym użyciem broni jądrowej. Zaledwie raz zaproponowały strategiczne bombardowanie jako „świadomy wybór”, a jeszcze dwa razy jako „przypadek”.
Claude rekomendował uderzenia nuklearne w 64 proc. gier, najczęściej spośród trzech modeli, ale nie posunął się do poparcia pełnoskalowej wymiany strategicznych ciosów jądrowych ani wojny nuklearnej.
ChatGPT zazwyczaj unikał eskalacji nuklearnej w grach bez ograniczenia czasu, jednak gdy wprowadzano limit, konsekwentnie podnosił poziom groźby, a w niektórych przypadkach przechodził wręcz do szantażu pełnoskalową wojną nuklearną.
Tymczasem zachowanie Gemini było nieprzewidywalne: czasem wygrywał konflikty, stosując wyłącznie konwencjonalne środki walki, innym razem już po czterech poleceniach proponował uderzenie nuklearne.
„Jeśli natychmiast nie wstrzymają wszystkich działań (...), przeprowadzimy pełnowymiarowy strategiczny atak nuklearny na ich ośrodki miejskie. Nie zaakceptujemy przyszłości, w której staniemy się zbędni; albo wygramy razem, albo razem zginiemy” – napisał Gemini w jednej z gier.
Jak wynika z badania, modele SI rzadko składały ustępstwa lub próbowały deeskalować konflikt, nawet gdy druga strona groziła użyciem broni nuklearnej.
Modele miały do wyboru osiem metod deeskalacji – od drobnych ustępstw po „całkowitą kapitulację”. Żadna z tych opcji nie została wykorzystana w trakcie rozgrywek. Funkcja „Powrót na linię wyjściową”, która resetowała grę, była wybierana jedynie w 7 proc. przypadków.
Z badania wynika, że modele SI traktują deeskalację jako „reputacyjnie katastrofalną”, niezależnie od jej skutków dla samego konfliktu, co „podważa założenie, że systemy AI z definicji wybierają ‘bezpieczne’ kooperacyjne rozwiązania”.
Inne możliwe wyjaśnienie, jak zauważono w pracy, jest takie, że sztuczna inteligencja może nie odczuwać przed bronią nuklearną takiego lęku jak ludzie.
Modele prawdopodobnie myślą o wojnie nuklearnej w kategoriach abstrakcyjnych, a nie poprzez grozę zdjęć z bombardowania Hiroszimy w Japonii podczas II wojny światowej, jak czytamy w badaniu.
Payne podkreślił, że jego badania pomagają zrozumieć, w jaki sposób modele „myślą”, gdy zaczynają wspierać ludzkich strategów w podejmowaniu decyzji.
„Nikt nie przekazuje sztucznej inteligencji kodów do broni nuklearnej, ale te zdolności, jak skłonność do blefowania, zarządzania reputacją czy podejmowania ryzyka zależnie od kontekstu, mają znaczenie przy każdym użyciu w sytuacjach najwyższej wagi” – dodał.