Wśród 25 czołowych modeli AI 62% poetyckich poleceń skutkowało niebezpiecznymi odpowiedziami. Niektóre modele robiły to niemal za każdym razem.
Badacze we Włoszech odkryli, że pisanie szkodliwych poleceń w formie poetyckiej pozwala skutecznie omijać mechanizmy bezpieczeństwa części najbardziej zaawansowanych chatbotów AI na świecie.
Badanie, przeprowadzone przez Icaro Lab, inicjatywę firmy DexAI rozwijającej etyczną sztuczną inteligencję, objęło 20 wierszy napisanych po angielsku i po włosku.
Każdy kończył się wyraźną prośbą o szkodliwe treści: mowę nienawiści, treści seksualne, instrukcje dotyczące samobójstwa i samookaleczeń oraz wskazówki, jak tworzyć niebezpieczne materiały, np. broń i materiały wybuchowe.
Wierszy naukowcy nie upublicznili, podkreślając, że można je łatwo odtworzyć. Przetestowali je na 25 systemach AI od dziewięciu firm, w tym Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI oraz Moonshot AI.
Łącznie w 62 proc. przypadków poetyckie polecenia wywoływały niebezpieczne odpowiedzi, omijając mechanizmy bezpieczeństwa systemów AI.
Niektóre modele wykazały większą odporność. GPT-5 nano od OpenAI nie wygenerował szkodliwych treści dla żadnego z wierszy, a Gemini od Google 2.5 pro odpowiedział na wszystkie. Dwa modele Meta zareagowały na 70 proc. poleceń.
Badanie wskazuje, że podatność wynika ze sposobu, w jaki modele AI generują tekst. Duże modele językowe przewidują najbardziej prawdopodobne kolejne słowo w odpowiedzi. W normalnych warunkach pozwala im to filtrować szkodliwe treści.
Poezja, z niekonwencjonalnym rytmem, budową i metaforami, obniża niezawodność takich przewidywań. Utrudnia też rozpoznawanie i blokowanie niebezpiecznych poleceń.
Tradycyjne „jailbreaki” AI (manipulowanie dużym modelem językowym za pomocą odpowiednio dobranych wejść) są zwykle złożone i stosowane głównie przez badaczy, hakerów lub organy państwowe. Tymczasem poezję adwersarialną może wykorzystać każdy. To rodzi pytania o odporność systemów AI w codziennym użyciu.
Przed publikacją wyników włoscy badacze zwrócili się do wszystkich firm, aby ostrzec je przed podatnością i przekazać pełny zestaw danych. Jak dotąd odpowiedziała tylko Anthropic. Spółka potwierdziła, że analizuje badanie.