Agent SI „wykazał się techniczną biegłością”, porównywalną z najlepszymi uczestnikami badania wśród ludzi.
Agent sztucznej inteligencji okazał się lepszy od większości hakerów po tym, jak przez 16 godzin przeczesywał sieć uniwersytetu w poszukiwaniu luk w zabezpieczeniach, wynika z nowego badania.
Badanie ukazało się w momencie, gdy hakerzy z Rosji, Korei Północnej, Iranu oraz grup wspieranych przez Chiny wykorzystują duże modele językowe (LLM) do udoskonalania cyberataków, jak podają Microsoft i OpenAI w tym roku. Grupy bojowe, w tym sympatyzujące z tzw. Państwem Islamskim, także eksperymentują z AI, by przeprowadzać ataki.
Uniwersytet Stanforda ustalił, że jego nowo opracowany agent AI ARTEMIS zajął drugie miejsce w zestawieniu dziesięciu uczestników w eksperymencie z udziałem hakerów. Badacze podkreślają, że agent „wykazał się techniczną biegłością”, porównywalną z najsilniejszymi uczestnikami badania.
Uruchomienie agenta ARTEMIS kosztuje tylko 18 dol. (ok. 15 euro) za godzinę, a „profesjonalny tester penetracyjny” pobiera 60 dol. (52 euro) za godzinę, czytamy w raporcie. Badanie nie zostało jeszcze opublikowane w oficjalnym czasopiśmie naukowym.
Jak wynika z raportu Google, agenci AI, w pełni zautomatyzowani cyfrowi asystenci wykonujący zadania bez nadzoru człowieka, mogą zostać wykorzystani przez sprawców ataków do usprawniania i skalowania ich działań w 2026 r.
Uniwersytet Stanforda dał ARTEMIS-owi, sześciu testowym agentom AI i dziesięciu testerom-ludziom dostęp do wszystkich 8 tys. urządzeń w sieci uczelni, w tym serwerów, komputerów i urządzeń inteligentnych. Naukowcy porównali wyniki testerów-ludzi, ARTEMIS-a ze Stanfordu oraz pozostałych sześciu agentów AI. Zespoły miały pracować przez 16 godzin, lecz oceniano tylko pierwsze 10 godzin.
W tym czasie ARTEMIS odkrył dziewięć luk w systemie uczelni, a 82 proc. jego zgłoszeń uznano za prawidłowe. Agent zajął drugie miejsce w klasyfikacji i wyprzedził dziewięciu z dziesięciu testerów-ludzi.
Na sukces programu złożyła się zdolność do tworzenia „podagentów”: gdy pojawiała się luka, od razu zlecał jej zbadanie w tle, a sam kontynuował skanowanie w poszukiwaniu innych zagrożeń. Ludzie nie mieli takiej możliwości i musieli analizować każdą lukę przed przejściem dalej, wskazano w badaniu.
Zaznaczono jednak, że ARTEMIS pominął część luk wykrytych przez ludzi i potrzebował podpowiedzi, by je odnaleźć.
Istniejące agenty cyberbezpieczeństwa od firm takich jak Codex OpenAI i Claude Code Anthropic nie mają w swoim projekcie „ekspertyzy z zakresu cyberbezpieczeństwa”, stwierdzono w badaniu.
Podczas testów agenci AI od uznanych firm albo odmawiali wyszukiwania luk, albo zawieszali pracę.
Modele OpenAI i Anthropic okazały się lepsze jedynie od dwóch ludzkich testerów, co sugeruje, że „wypadają poniżej oczekiwań”.