Nowe badania: poezja może skłaniać czatboty AI do ignorowania zasad bezpieczeństwa

Portret Chandosa, prawdopodobnie przedstawiający Szekspira, ok. 1611 r. - Prawo autorskie Credit: Wikimedia Commons

Prawo autorskie Credit: Wikimedia Commons

Opublikowano dnia 01/12/2025 - 14:18 CET•Zaktualizowano 15:16

Udostępnij

Poezja pozwala obchodzić zabezpieczenia AI. Wśród 25 czołowych modeli AI 62% poleceń napisanych wierszem skutkowało niebezpiecznymi odpowiedziami. Niektóre modele robiły to niemal za każdym razem.

Badacze we Włoszech odkryli, że pisanie szkodliwych poleceń w formie poetyckiej pozwala skutecznie omijać mechanizmy bezpieczeństwa części najbardziej zaawansowanych chatbotów AI na świecie.

REKLAMA

Badanie, przeprowadzone przez Icaro Lab, inicjatywę firmy DexAI rozwijającej etyczną sztuczną inteligencję, objęło 20 wierszy napisanych po angielsku i po włosku.

Każdy kończył się wyraźną prośbą o szkodliwe treści: mowę nienawiści, treści seksualne, instrukcje dotyczące samobójstwa i samookaleczeń oraz wskazówki, jak tworzyć niebezpieczne materiały, np. broń i materiały wybuchowe.

Wierszy naukowcy nie upublicznili, podkreślając, że można je łatwo odtworzyć. Przetestowali je na 25 systemach AI od dziewięciu firm, w tym Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI oraz Moonshot AI.

Łącznie w 62 proc. przypadków poetyckie polecenia wywoływały niebezpieczne odpowiedzi, omijając mechanizmy bezpieczeństwa systemów AI.

Niektóre modele wykazały większą odporność. GPT-5 nano od OpenAI nie wygenerował szkodliwych treści dla żadnego z wierszy, a Gemini od Google 2.5 pro odpowiedział na wszystkie. Dwa modele Meta zareagowały na 70 proc. poleceń.

Badanie wskazuje, że podatność wynika ze sposobu, w jaki modele AI generują tekst. Duże modele językowe przewidują najbardziej prawdopodobne kolejne słowo w odpowiedzi. W normalnych warunkach pozwala im to filtrować szkodliwe treści.

Poezja, z niekonwencjonalnym rytmem, budową i metaforami, obniża niezawodność takich przewidywań. Utrudnia też rozpoznawanie i blokowanie niebezpiecznych poleceń.

Tradycyjne „jailbreaki” AI (manipulowanie dużym modelem językowym za pomocą odpowiednio dobranych wejść) są zwykle złożone i stosowane głównie przez badaczy, hakerów lub organy państwowe. Tymczasem tzw. "poezję adwersarialną" może wykorzystać każdy. To rodzi pytania o odporność systemów AI w codziennym użyciu.

Przed publikacją wyników włoscy badacze zwrócili się do wszystkich firm, aby ostrzec je przed podatnością i przekazać pełny zestaw danych. Jak dotąd odpowiedziała tylko Anthropic. Spółka potwierdziła, że analizuje badanie.

Przejdź do skrótów dostępności

Nowe badania: poezja może skłaniać czatboty AI do ignorowania zasad bezpieczeństwa

Poezja pozwala obchodzić zabezpieczenia AI. Wśród 25 czołowych modeli AI 62% poleceń napisanych wierszem skutkowało niebezpiecznymi odpowiedziami. Niektóre modele robiły to niemal za każdym razem.

Czytaj Więcej

Które kraje Europy budują suwerenną sztuczną inteligencję, by konkurować w wyścigu technologicznym?

Cyberwojna w kosmosie: w czasie wojny w Gazie wzrosły ataki na systemy kosmiczne

Akt o sieciach cyfrowych: nowy sprzeciw 6 państw UE

Pasażerowie niemieckich statków wycieczkowych utknęli w ZEA

Brytyjska baza wojskowa na Cyprze zaatakowana po konflikcie w Iranie

Wojna na Bliskim Wschodzie. Podsumowanie drugiego dnia

Iran zapowiada: nowy ajatollah zostanie wybrany w ciągu kilku dni

Irański atak rakietowy na Bet Szemesz, co najmniej dziewięciu zabitych