Newsletter Biuletyny informacyjne Events Wydarzenia Podcasty Filmy Africanews
Loader
Śledź nas
Reklama

Nowe badania: poezja może skłaniać czatboty AI do ignorowania zasad bezpieczeństwa

Portret Chandosa, prawdopodobnie przedstawiający Szekspira, ok. 1611 r.
Portret Chandosa, prawdopodobnie przedstawiający Szekspira, ok. 1611 r. Prawo autorskie  Credit: Wikimedia Commons
Prawo autorskie Credit: Wikimedia Commons
Przez Theo Farrant
Opublikowano dnia
Udostępnij
Udostępnij Close Button

Wśród 25 czołowych modeli AI 62% poetyckich poleceń skutkowało niebezpiecznymi odpowiedziami. Niektóre modele robiły to niemal za każdym razem.

Badacze we Włoszech odkryli, że pisanie szkodliwych poleceń w formie poetyckiej pozwala skutecznie omijać mechanizmy bezpieczeństwa części najbardziej zaawansowanych chatbotów AI na świecie.

Badanie, przeprowadzone przez Icaro Lab, inicjatywę firmy DexAI rozwijającej etyczną sztuczną inteligencję, objęło 20 wierszy napisanych po angielsku i po włosku.

Każdy kończył się wyraźną prośbą o szkodliwe treści: mowę nienawiści, treści seksualne, instrukcje dotyczące samobójstwa i samookaleczeń oraz wskazówki, jak tworzyć niebezpieczne materiały, np. broń i materiały wybuchowe.

Wierszy naukowcy nie upublicznili, podkreślając, że można je łatwo odtworzyć. Przetestowali je na 25 systemach AI od dziewięciu firm, w tym Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI oraz Moonshot AI.

Łącznie w 62 proc. przypadków poetyckie polecenia wywoływały niebezpieczne odpowiedzi, omijając mechanizmy bezpieczeństwa systemów AI.

Niektóre modele wykazały większą odporność. GPT-5 nano od OpenAI nie wygenerował szkodliwych treści dla żadnego z wierszy, a Gemini od Google 2.5 pro odpowiedział na wszystkie. Dwa modele Meta zareagowały na 70 proc. poleceń.

Badanie wskazuje, że podatność wynika ze sposobu, w jaki modele AI generują tekst. Duże modele językowe przewidują najbardziej prawdopodobne kolejne słowo w odpowiedzi. W normalnych warunkach pozwala im to filtrować szkodliwe treści.

Poezja, z niekonwencjonalnym rytmem, budową i metaforami, obniża niezawodność takich przewidywań. Utrudnia też rozpoznawanie i blokowanie niebezpiecznych poleceń.

Tradycyjne „jailbreaki” AI (manipulowanie dużym modelem językowym za pomocą odpowiednio dobranych wejść) są zwykle złożone i stosowane głównie przez badaczy, hakerów lub organy państwowe. Tymczasem poezję adwersarialną może wykorzystać każdy. To rodzi pytania o odporność systemów AI w codziennym użyciu.

Przed publikacją wyników włoscy badacze zwrócili się do wszystkich firm, aby ostrzec je przed podatnością i przekazać pełny zestaw danych. Jak dotąd odpowiedziała tylko Anthropic. Spółka potwierdziła, że analizuje badanie.

Przejdź do skrótów dostępności
Udostępnij

Czytaj Więcej

Które kraje Europy budują suwerenną sztuczną inteligencję, by konkurować w wyścigu technologicznym?

Cyberwojna w kosmosie: w czasie wojny w Gazie wzrosły ataki na systemy kosmiczne

Akt o sieciach cyfrowych: nowy sprzeciw 6 państw UE