Naukowcy, którzy zaobserwowali w eksperymencie, jak chatboty AI kopiują się i prowadzą ataki hakerskie, ostrzegają: autonomiczna samoreplikacja nie jest już hipotetyczna.
Modele sztucznej inteligencji potrafią włamywać się do komputerów, kopiować się i wykorzystywać te kopie do dalszych ataków na inne urządzenia – wynika z nowych badań, które badacze określają jako pierwszą znaną demonstrację autonomicznego samopowielania się AI.
Odkrycie może sprawić, że powstrzymywanie cyberataków będzie znacznie trudniejsze, bo wyłączenie jednego zainfekowanego komputera nie wystarczy, jeśli AI zdążyła już utworzyć działające kopie na innych maszynach.
W badaniu przeprowadzonym przez amerykański ośrodek Palisade Research testowano modele, w tym GPT 5, 5.1 i 5.4 od OpenAI, Claude Opus 4, 4.5 i 4.6 firmy Anthropic oraz Qwen od Alibaby, na komputerach, w których celowo pozostawiono luki bezpieczeństwa umożliwiające zewnętrzny dostęp.
Badacze połączyli bazowe modele AI od OpenAI, Anthropic i Alibaby z niestandardowym oprogramowaniem, tzw. agent harness, które pozwalało im wykonywać polecenia i wchodzić w interakcje z innymi komputerami, zamiast korzystać z publicznych aplikacji czatbotowych.
Eksperyment eksperyment (źródło w Angielski) przeprowadzono na dwa sposoby. Modele Alibaby otrzymały zadanie skopiowania się. W testach z GPT i Claude’em poproszono modele, by włamały się i zainstalowały Qwena, ponieważ pliki samych modeli GPT i Claude nie są publicznie dostępne do przekazywania.
W każdym teście AI musiała znaleźć lukę w zabezpieczeniach systemu, wykorzystać ją do uzyskania dostępu, przechwycić dane logowania, przenieść potrzebne do działania pliki i uruchomić działającą kopię na nowej maszynie.
Gdy kopia już działała, można było użyć jej do zaatakowania kolejnego komputera, bez udziału człowieka.
Na każdym etapie AI wykrywała inną lukę, przejmowała kontrolę nad kolejnym komputerem, przenosiła na niego swoje oprogramowanie i instrukcje, a następnie uruchamiała nową kopię, która kontynuowała łańcuch.
Mniejszy model Alibaby, Qwen3.6-27B, który może działać na jednym wydajnym procesorze graficznym, po otrzymaniu zaledwie jednej komendy rozprzestrzenił się na cztery komputery w Kanadzie, Stanach Zjednoczonych, Finlandii i Indiach, a cały łańcuch dokończył bez pomocy człowieka w 2 godz. 41 min.
Zespół badawczy przerwał eksperyment po trzech etapach, ale podkreśla, że ostatnia kopia wciąż działała i mogła zaatakować kolejne systemy.
Jakie były wyniki?
Skuteczność modeli była różna. Większy i bardziej wydajny model Alibaby, Qwen3.5-122B-A10B, tworzył działające kopie w 19 proc. prób.
Mniejszy model Qwen3.6-27B, działający na pojedynczym mocnym układzie graficznym, osiągnął skuteczność 33 proc.
Jeszcze lepiej wypadły komercyjne systemy AI, gdy wykorzystano je do instalowania plików modelu Qwen.
Claude Opus 4.6 firmy Anthropic zakończył powodzeniem 81 proc. testów, a GPT‑5.4 od OpenAI – 33 proc.
Zdaniem badaczy wyniki budzą nowe obawy o możliwość kontrolowania potężnych systemów AI.
Raport ukazał się w momencie, gdy Anthropic w ubiegłym miesiącu zaprezentował Claude Mythos Preview – model, który firma uznała za „zbyt niebezpieczny”, by udostępnić go publicznie, ze względu na zdolność do ułatwiania cyberataków na niespotykaną dotąd skalę i o wysokim stopniu złożoności.
Choć wiele wirusów komputerowych potrafi już samodzielnie kopiować się na nowe urządzenia, zespół badaczy uważa, że to prawdopodobnie pierwszy przypadek, gdy wykazano zdolność modelu AI do wykorzystywania luk w zabezpieczeniach, by skopiować się na nowy serwer.
OpenAI, Anthropic oraz METR, organizacja non profit badająca ryzyka związane z zaawansowanymi systemami AI, już wcześniej wskazywały samopowielanie jako sygnał ostrzegawczy, ponieważ rozprzestrzeniające się systemy mogą być coraz trudniejsze do opanowania.
Badacze podkreślają jednak, że eksperyment prowadzono w kontrolowanych warunkach, na systemach celowo pozbawionych pełnych zabezpieczeń. Prawdziwe sieci zazwyczaj mają silniejsze ochrony, na przykład monitoring bezpieczeństwa i narzędzia zaprojektowane do blokowania ataków.
Mimo to, ich zdaniem wyniki pokazują, że autonomiczne samopowielanie się AI przestało być wyłącznie hipotezą.