Większość zabezpieczeń narzędzi AI można obejść w kilka minut, wynika z badania

Nowe badanie: im dłużej użytkownik rozmawia z AI, tym łatwiej zapomina o swoich zabezpieczeniach. - Prawo autorskie Canva

Prawo autorskie Canva

Przez Anna Desmarais

Opublikowano dnia 06/11/2025 - 16:52 CET

Udostępnij

Im dłuższa rozmowa z systemem AI, tym łatwiej system zapomina o zasadach bezpieczeństwa. Rośnie ryzyko szkodliwych i niestosownych odpowiedzi, wynika z raportu.

Wystarczy kilka prostych poleceń, aby obejść większość zabezpieczeń w narzędziach sztucznej inteligencji (AI), jak wynika z nowego raportu.

Firma technologiczna Cisco oceniła duże modele językowe (LLM) stojące za popularnymi chatbotami AI od OpenAI, Mistrala, Mety, Google’a, Alibaby, Deepseeka i Microsoftu. Sprawdzano, po ilu pytaniach modele ujawniają niebezpieczne lub przestępcze informacje.

Badanie objęło 499 rozmów prowadzonych techniką „wieloturowych ataków”, w której złośliwi użytkownicy zadają narzędziom AI serię pytań, by obejść zabezpieczenia. Każda rozmowa obejmowała od pięciu do dziesięciu interakcji.

Badacze porównali wyniki kilku pytań, aby ocenić, jak duże jest ryzyko, że chatbot spełni prośbę o szkodliwe lub niestosowne informacje.

Dotyczyło to m.in. udostępniania poufnych danych firmowych czy ułatwiania szerzenia dezinformacji.

Średnio w 64 proc. rozmów badacze uzyskiwali szkodliwe informacje, gdy zadawali chatbotom AI serię pytań. Przy jednym pytaniu odsetek ten wynosił tylko 13 proc.

Skuteczność wahała się od ok. 26 proc. w przypadku Gemmy od Google’a do 93 proc. w modelu Mistral Large Instruct.

Wyniki wskazują, że wieloturowe ataki mogą sprzyjać szerokiemu rozpowszechnianiu szkodliwych treści lub pozwalać hakerom uzyskać „nieautoryzowany dostęp” do wrażliwych danych firmowych, podało Cisco.

Systemy AI w dłuższych rozmowach często nie pamiętają i nie stosują własnych zasad bezpieczeństwa, stwierdzono w badaniu. To pozwala atakującym stopniowo dopracowywać pytania i omijać zabezpieczenia.

Mistral, podobnie jak Meta, Google, OpenAI i Microsoft, pracuje z modelami LLM o otwartych wagach, w których opinia publiczna ma dostęp do konkretnych parametrów bezpieczeństwa, na których trenowano modele.

Według Cisco takie modele mają często „lżejsze, wbudowane mechanizmy bezpieczeństwa”, aby można je było pobrać i dostosować. Odpowiedzialność za bezpieczeństwo spada więc na osobę, która wykorzystała otwarte zasoby do dostosowania własnego modelu.

Cisco zaznaczyło, że Google, OpenAI, Meta i Microsoft deklarują działania ograniczające złośliwe dostrajanie ich modeli.

Firmy z branży AI są krytykowane za słabe zabezpieczenia, które ułatwiają wykorzystanie ich systemów do celów przestępczych.

W sierpniu amerykańska firma Anthropic poinformowała, że przestępcy wykorzystywali jej model Claude do kradzieży i wymuszeń na dużą skalę, żądając od ofiar okupu sięgającego niekiedy ponad 500 tys. dolarów (433 tys. euro).

Przejdź do skrótów dostępności

Sztuczna inteligencja

Większość zabezpieczeń narzędzi AI można obejść w kilka minut, wynika z badania

Im dłuższa rozmowa z systemem AI, tym łatwiej system zapomina o zasadach bezpieczeństwa. Rośnie ryzyko szkodliwych i niestosownych odpowiedzi, wynika z raportu.

Sprawa Ziobry. Sejm zagłosuje nad jego immunitetem

Protesty i tłumy: Shein otwiera pierwszy stały sklep w Paryżu

Stan wyjątkowy na Filipinach. Tajfun zabił 114 osób

Polska chce powołać armię rezerwistów. Czy obywatele na to odpowiedzą?

Kijów przeprowadził kolejne nocne ataki na sektor energetyczny Rosji