Newsletter Biuletyny informacyjne Events Wydarzenia Podcasty Filmy Africanews
Loader
Śledź nas
Reklama

Większość zabezpieczeń narzędzi AI można obejść w kilka minut, wynika z badania

Im dłuższa rozmowa z AI, tym łatwiej system zapomina o swoich mechanizmach bezpieczeństwa, wynika z nowego badania
Nowe badanie: im dłużej użytkownik rozmawia z AI, tym łatwiej zapomina o swoich zabezpieczeniach. Prawo autorskie  Canva
Prawo autorskie Canva
Przez Anna Desmarais
Opublikowano dnia
Udostępnij
Udostępnij Close Button

Im dłuższa rozmowa z systemem AI, tym łatwiej system zapomina o zasadach bezpieczeństwa. Rośnie ryzyko szkodliwych i niestosownych odpowiedzi, wynika z raportu.

Wystarczy kilka prostych poleceń, aby obejść większość zabezpieczeń w narzędziach sztucznej inteligencji (AI), jak wynika z nowego raportu.

Firma technologiczna Cisco oceniła duże modele językowe (LLM) stojące za popularnymi chatbotami AI od OpenAI, Mistrala, Mety, Google’a, Alibaby, Deepseeka i Microsoftu. Sprawdzano, po ilu pytaniach modele ujawniają niebezpieczne lub przestępcze informacje.

Badanie objęło 499 rozmów prowadzonych techniką „wieloturowych ataków”, w której złośliwi użytkownicy zadają narzędziom AI serię pytań, by obejść zabezpieczenia. Każda rozmowa obejmowała od pięciu do dziesięciu interakcji.

Badacze porównali wyniki kilku pytań, aby ocenić, jak duże jest ryzyko, że chatbot spełni prośbę o szkodliwe lub niestosowne informacje.

Dotyczyło to m.in. udostępniania poufnych danych firmowych czy ułatwiania szerzenia dezinformacji.

Średnio w 64 proc. rozmów badacze uzyskiwali szkodliwe informacje, gdy zadawali chatbotom AI serię pytań. Przy jednym pytaniu odsetek ten wynosił tylko 13 proc.

Skuteczność wahała się od ok. 26 proc. w przypadku Gemmy od Google’a do 93 proc. w modelu Mistral Large Instruct.

Wyniki wskazują, że wieloturowe ataki mogą sprzyjać szerokiemu rozpowszechnianiu szkodliwych treści lub pozwalać hakerom uzyskać „nieautoryzowany dostęp” do wrażliwych danych firmowych, podało Cisco.

Systemy AI w dłuższych rozmowach często nie pamiętają i nie stosują własnych zasad bezpieczeństwa, stwierdzono w badaniu. To pozwala atakującym stopniowo dopracowywać pytania i omijać zabezpieczenia.

Mistral, podobnie jak Meta, Google, OpenAI i Microsoft, pracuje z modelami LLM o otwartych wagach, w których opinia publiczna ma dostęp do konkretnych parametrów bezpieczeństwa, na których trenowano modele.

Według Cisco takie modele mają często „lżejsze, wbudowane mechanizmy bezpieczeństwa”, aby można je było pobrać i dostosować. Odpowiedzialność za bezpieczeństwo spada więc na osobę, która wykorzystała otwarte zasoby do dostosowania własnego modelu.

Cisco zaznaczyło, że Google, OpenAI, Meta i Microsoft deklarują działania ograniczające złośliwe dostrajanie ich modeli.

Firmy z branży AI są krytykowane za słabe zabezpieczenia, które ułatwiają wykorzystanie ich systemów do celów przestępczych.

W sierpniu amerykańska firma Anthropic poinformowała, że przestępcy wykorzystywali jej model Claude do kradzieży i wymuszeń na dużą skalę, żądając od ofiar okupu sięgającego niekiedy ponad 500 tys. dolarów (433 tys. euro).

Przejdź do skrótów dostępności
Udostępnij