Anthropic: historie o „złej SI” miały skłonić Claude'a do szantażu

Opublikowano dnia 11/05/2026 - 16:06 CEST

Udostępnij

Firma Anthropic uważa, że znalazła przyczynę szantażopodobnych zachowań chatbota Claude: fikcyjne opowiadania publikowane w sieci.

Zdarzyło ci się czytać książkę albo oglądać serial i aż za bardzo utożsamiać się z bohaterem? Według firmy Anthropic coś podobnego mogło się wydarzyć podczas testów jej chatbota Claude.

REKLAMA

W testach przeprowadzonych przed ubiegłoroczną premierą modelu sztucznej inteligencji Anthropic odkryło, że Claude Opus 4 czasem groził inżynierom, gdy słyszał, że może zostać zastąpiony.

Firma podała później, że podobne zachowania, określane jako „agentic misalignment”, obserwowano też w modelach sztucznej inteligencji tworzonych przez inne przedsiębiorstwa.

Sztuczna inteligencja uczy się z fikcji o sobie

Teraz Anthropic uważa, że znalazło źródło takich, przypominających szantaż zachowań: fikcyjne historie o sztucznej inteligencji publikowane w internecie.

„Uważamy, że pierwotnym źródłem tego zachowania były teksty z internetu, w których AI przedstawiana jest jako zła i zafiksowana na własnym przetrwaniu” – napisała firma na X (źródło w Angielski).

W wpisie na blogu Anthropic wyjaśniło, że późniejsze wersje Claude’a już „nigdy” nikogo nie szantażowały i opisało, jak przeszkolono chatbota, by reagował inaczej. (źródło w Angielski) Modele zachowywały się lepiej, gdy trenowano je nie tylko na „właściwych” działaniach, lecz także na przykładach rozumowania etycznego i pozytywnych przedstawień zachowania AI.

Dlatego Claude otrzymał własną „konstytucję” – zestaw dokumentów wyjaśniających zbiór zasad etycznych, które mają kierować jego zachowaniem. Firma twierdzi, że zamiast naśladować jedynie „prawidłowe” odpowiedzi, chatbot lepiej uczy się, gdy poznaje stojące za nimi zasady.

Grozić a stać się zagrożeniem

W styczniu prezes Anthropic, Dario Amodei, ostrzegał, że zaawansowana AI może stać się na tyle potężna, że wyprzedzi obowiązujące prawo i instytucje, nazywając ją „wyzwaniem cywilizacyjnym”.

W eseju przekonywał, że systemy AI mogą wkrótce przewyższyć ludzkie kompetencje w dziedzinach takich jak nauka, inżynieria i programowanie, a po połączeniu przypominać „kraj geniuszy zamknięty w centrum danych”.

Ostrzegał, że takie systemy mogą zostać wykorzystane przez autorytarne rządy do masowej inwigilacji i kontroli, co w skrajnym przypadku mogłoby doprowadzić do „totalitarnych” form władzy, jeśli nie zostaną objęte nadzorem.

Przejdź do skrótów dostępności

Sztuczna inteligencja

Anthropic: historie o „złej SI” miały skłonić Claude'a do szantażu

Firma Anthropic uważa, że znalazła przyczynę szantażopodobnych zachowań chatbota Claude: fikcyjne opowiadania publikowane w sieci.

Sztuczna inteligencja uczy się z fikcji o sobie

Grozić a stać się zagrożeniem

Czytaj Więcej

Prezes Anthropic: „Ludzkość musi się obudzić” w obliczu zagrożeń AI

AI dostała miesiąc na prowadzenie sklepu - straciła pieniądze, groziła i miała "kryzys tożsamości"

Anthropic: historie o „złej SI” miały skłonić Claude'a do szantażu

Przyszły minister zdrowia Węgier Zsolt Hegedűs tańczy na wiecu Magyara

Hantawirus: Francja potwierdza nowy przypadek u ewakuowanej kobiety

Iran ostrzega Europę, by nie wysyłała statków do cieśniny Ormuz

Kto pomógł Ziobrze? Prokuratura sprawdza tropy

Trump odrzucił irańską odpowiedź na amerykańską propozycję