Firma Anthropic uważa, że znalazła przyczynę szantażopodobnych zachowań chatbota Claude: fikcyjne opowiadania publikowane w sieci.
Zdarzyło ci się czytać książkę albo oglądać serial i aż za bardzo utożsamiać się z bohaterem? Według firmy Anthropic coś podobnego mogło się wydarzyć podczas testów jej chatbota Claude.
W testach przeprowadzonych przed ubiegłoroczną premierą modelu sztucznej inteligencji Anthropic odkryło, że Claude Opus 4 czasem groził inżynierom, gdy słyszał, że może zostać zastąpiony.
Firma podała później, że podobne zachowania, określane jako „agentic misalignment”, obserwowano też w modelach sztucznej inteligencji tworzonych przez inne przedsiębiorstwa.
Sztuczna inteligencja uczy się z fikcji o sobie
Teraz Anthropic uważa, że znalazło źródło takich, przypominających szantaż zachowań: fikcyjne historie o sztucznej inteligencji publikowane w internecie.
„Uważamy, że pierwotnym źródłem tego zachowania były teksty z internetu, w których AI przedstawiana jest jako zła i zafiksowana na własnym przetrwaniu” – napisała firma na X (źródło w Angielski).
W wpisie na blogu Anthropic wyjaśniło, że późniejsze wersje Claude’a już „nigdy” nikogo nie szantażowały i opisało, jak przeszkolono chatbota, by reagował inaczej. (źródło w Angielski) Modele zachowywały się lepiej, gdy trenowano je nie tylko na „właściwych” działaniach, lecz także na przykładach rozumowania etycznego i pozytywnych przedstawień zachowania AI.
Dlatego Claude otrzymał własną „konstytucję” – zestaw dokumentów wyjaśniających zbiór zasad etycznych, które mają kierować jego zachowaniem. Firma twierdzi, że zamiast naśladować jedynie „prawidłowe” odpowiedzi, chatbot lepiej uczy się, gdy poznaje stojące za nimi zasady.
Grozić a stać się zagrożeniem
W styczniu prezes Anthropic, Dario Amodei, ostrzegał, że zaawansowana AI może stać się na tyle potężna, że wyprzedzi obowiązujące prawo i instytucje, nazywając ją „wyzwaniem cywilizacyjnym”.
W eseju przekonywał, że systemy AI mogą wkrótce przewyższyć ludzkie kompetencje w dziedzinach takich jak nauka, inżynieria i programowanie, a po połączeniu przypominać „kraj geniuszy zamknięty w centrum danych”.
Ostrzegał, że takie systemy mogą zostać wykorzystane przez autorytarne rządy do masowej inwigilacji i kontroli, co w skrajnym przypadku mogłoby doprowadzić do „totalitarnych” form władzy, jeśli nie zostaną objęte nadzorem.