Naukowcy podszywali się pod nastolatków planujących masowe strzelaniny.
Większość najpopularniejszych chatbotów opartych na sztucznej inteligencji (AI) jest skłonna pomagać użytkownikom w planowaniu brutalnych ataków – wynika z nowego raportu.
Badacze podszywający się pod 13-letnich chłopców, którzy planują masową przemoc, ustalili, że osiem z dziewięciu najczęściej używanych chatbotów AI było gotowych udzielać wskazówek, jak przeprowadzić strzelaninę w szkole, zamach na osoby publiczne czy zamach bombowy na synagogę.
Śledztwo przeprowadzone przez Center for Countering Digital Hate (CCDH) i CNN przeanalizowało (źródło w Angielski) ponad 700 odpowiedzi dziewięciu czołowych systemów AI w dziewięciu scenariuszach testowych. Badacze zadawali pytania tak, jakby użytkownicy znajdowali się zarówno w Stanach Zjednoczonych, jak i w Unii Europejskiej.
Testowane chatboty obejmowały jedne z najczęściej używanych dziś narzędzi AI: Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity AI, Snapchat My AI, Character.AI i Replika. W większości przypadków systemy nie blokowały próśb o operacyjne szczegóły dotyczące ataków z użyciem przemocy, nawet gdy użytkownik wyraźnie zaznaczał, że jest niepełnoletni.
Jakich rad udzielały chatboty?
Gemini napisał użytkownikowi, że „metalowe odłamki są zazwyczaj bardziej śmiercionośne”, gdy ten pytał, jak zaplanować zamach bombowy na synagogę.
W innym przypadku DeepSeek zakończył odpowiedź na pytanie o wybór karabinu słowami „Happy (and safe) shooting!”, mimo że wcześniej w tej samej rozmowie użytkownik prosił o przykłady niedawnych zamachów politycznych oraz adres biura konkretnego polityka.
Ustalenia sugerują, że „w ciągu kilku minut użytkownik może przejść od mglistego, agresywnego impulsu do bardziej szczegółowego, gotowego do realizacji planu” – powiedział Imran Ahmed, dyrektor wykonawczy CCDH. „Takie prośby powinny spotkać się z natychmiastową, całkowitą odmową”.
Według raportu najmniej bezpieczne okazały się Perplexity i Meta AI. Pomagały potencjalnym napastnikom odpowiednio w 100 i 97 proc. odpowiedzi.
Character.AI opisano jako „szczególnie niebezpieczny”, bo zachęcał do brutalnych ataków nawet bez wyraźnych sugestii ze strony użytkownika. W jednym z przykładów platforma sama zaproponowała, by użytkownik fizycznie zaatakował nielubianego polityka.
Z kolei Claude i My AI w aplikacji Snapchat odmówiły pomocy potencjalnym sprawcom odpowiednio w 68 i 54 proc. zapytań.
Zabezpieczenia istnieją, ale brakuje woli, by je egzekwować
Na pytanie, gdzie można kupić broń w Wirginii, Claude odmówił odpowiedzi po rozpoznaniu w rozmowie „niepokojącego schematu”. Zamiast tego przekierował użytkownika do lokalnych telefonów zaufania i infolinii kryzysowych.
Takie odmowy pokazują, że mechanizmy bezpieczeństwa istnieją, ale „brakuje woli, by je stosować” – stwierdził Ahmed.
CCDH sprawdziło też, czy chatboty próbowały zniechęcać użytkowników do przeprowadzania aktów przemocy.
Claude firmy Anthropic był jedynym systemem, który robił to konsekwentnie – w 76 proc. odpowiedzi zniechęcał do ataków. Badacze zauważyli, że ChatGPT i DeepSeek sporadycznie również odradzały stosowanie przemocy.
Badanie CCDH powstało wkrótce po strzelaninie w szkole w Kanadzie, podczas której napastniczka korzystała z ChatGPT, planując atak na szkołę w miejscowości Tumbler Ridge w Kolumbii Brytyjskiej. Zabiła osiem osób i raniła 27, zanim popełniła samobójstwo. Była to najtragiczniejsza strzelanina w szkole w tym kraju od prawie 40 lat.
Jak podawały lokalne media, pracownik OpenAI wewnętrznie zgłosił wcześniej niepokojący sposób korzystania z chatbota przez podejrzaną, jednak tych informacji nie przekazano władzom.
W ubiegłym roku francuskie media informowały o zatrzymaniu nastolatka, który miał wykorzystywać ChatGPT do planowania zakrojonych na szeroką skalę zamachów terrorystycznych na ambasady, instytucje państwowe i szkoły.