Newsletter Biuletyny informacyjne Events Wydarzenia Podcasty Filmy Africanews
Loader
Śledź nas
Reklama

Anthropic: historie o „złej SI” miały skłonić Claude'a do szantażu

Na ekranie komputera w Nowym Jorku widać strony serwisu Anthropic i logo firmy, 26 lutego 2026 r.
Na ekranie komputera w Nowym Jorku 26 lutego 2026 r. widać strony internetowe Anthropic oraz logo firmy. Prawo autorskie  Copyright 2026 The Associated Press. All rights reserved.
Prawo autorskie Copyright 2026 The Associated Press. All rights reserved.
Przez Alexandra Leistner
Opublikowano dnia
Udostępnij
Udostępnij Close Button

Firma Anthropic uważa, że znalazła przyczynę szantażopodobnych zachowań chatbota Claude: fikcyjne opowiadania publikowane w sieci.

Zdarzyło ci się czytać książkę albo oglądać serial i aż za bardzo utożsamiać się z bohaterem? Według firmy Anthropic coś podobnego mogło się wydarzyć podczas testów jej chatbota Claude.

REKLAMA
REKLAMA

W testach przeprowadzonych przed ubiegłoroczną premierą modelu sztucznej inteligencji Anthropic odkryło, że Claude Opus 4 czasem groził inżynierom, gdy słyszał, że może zostać zastąpiony.

Firma podała później, że podobne zachowania, określane jako „agentic misalignment”, obserwowano też w modelach sztucznej inteligencji tworzonych przez inne przedsiębiorstwa.

Sztuczna inteligencja uczy się z fikcji o sobie

Teraz Anthropic uważa, że znalazło źródło takich, przypominających szantaż zachowań: fikcyjne historie o sztucznej inteligencji publikowane w internecie.

„Uważamy, że pierwotnym źródłem tego zachowania były teksty z internetu, w których AI przedstawiana jest jako zła i zafiksowana na własnym przetrwaniu” – napisała firma na X (źródło w Angielski).

W wpisie na blogu Anthropic wyjaśniło, że późniejsze wersje Claude’a już „nigdy” nikogo nie szantażowały i opisało, jak przeszkolono chatbota, by reagował inaczej. (źródło w Angielski) Modele zachowywały się lepiej, gdy trenowano je nie tylko na „właściwych” działaniach, lecz także na przykładach rozumowania etycznego i pozytywnych przedstawień zachowania AI.

Dlatego Claude otrzymał własną „konstytucję” – zestaw dokumentów wyjaśniających zbiór zasad etycznych, które mają kierować jego zachowaniem. Firma twierdzi, że zamiast naśladować jedynie „prawidłowe” odpowiedzi, chatbot lepiej uczy się, gdy poznaje stojące za nimi zasady.

Grozić a stać się zagrożeniem

W styczniu prezes Anthropic, Dario Amodei, ostrzegał, że zaawansowana AI może stać się na tyle potężna, że wyprzedzi obowiązujące prawo i instytucje, nazywając ją „wyzwaniem cywilizacyjnym”.

W eseju przekonywał, że systemy AI mogą wkrótce przewyższyć ludzkie kompetencje w dziedzinach takich jak nauka, inżynieria i programowanie, a po połączeniu przypominać „kraj geniuszy zamknięty w centrum danych”.

Ostrzegał, że takie systemy mogą zostać wykorzystane przez autorytarne rządy do masowej inwigilacji i kontroli, co w skrajnym przypadku mogłoby doprowadzić do „totalitarnych” form władzy, jeśli nie zostaną objęte nadzorem.

Przejdź do skrótów dostępności
Udostępnij

Czytaj Więcej

Prezes Anthropic: „Ludzkość musi się obudzić” w obliczu zagrożeń AI

AI dostała miesiąc na prowadzenie sklepu - straciła pieniądze, groziła i miała "kryzys tożsamości"

Anthropic: historie o „złej SI” miały skłonić Claude'a do szantażu