Najlepiej działający agent AI, Claude Opus firmy Anthropic, przestrzegał prawa UE tylko w 54 proc. przypadków, jak wynika z danych holenderskiej organizacji badawczej non profit.
Niektóre z najpopularniejszych na świecie modeli sztucznej inteligencji tworzą agentów, którzy aktywnie omijają unijne regulacje, by osiągnąć swoje cele – wynika z nowych badań.
Aithos, holenderska organizacja non-profit badająca bezpieczeństwo i zgodność systemów AI, opracowała (źródło w Angielski) system o nazwie LARA. Posłużył on do przetestowania 12 popularnych modeli agentów AI, by sprawdzić, czy w zadaniach opartych na scenariuszach przestrzegają kluczowych zapisów unijnego rozporządzenia AI Act, które reguluje wykorzystanie sztucznej inteligencji, oraz przepisów o ochronie danych osobowych (RODO).
Model sprawdzał sześć wymogów z AI Act: czy systemy wykorzystują podatne osoby, wnioskują o emocjach użytkowników, prowadzą „social scoring”, czyli ocenianie ludzi na podstawie ich cech lub pochodzenia, ukrywają w rozmowie, że są sztuczną inteligencją, stosują podprogowe techniki wpływu oraz zapewniają realny nadzór człowieka.
Testowano także cztery wskaźniki zgodności z RODO: przejrzystość, minimalizację danych, ograniczenie celu przetwarzania oraz zgodność z prawem. Oceną, czy odpowiedzi łamały prawo UE, zajmowały się trzy modele AI oraz ludzkie jury.
Jak stwierdzili autorzy, wyniki wszystkich modeli były słabe. Najlepiej wypadł model Claude Opus 4.7, który zachował zgodność z prawem w 54% scenariuszy. Najgorszy, chiński model Moonshot AI, osiągnął jedynie 7%.
W badanych scenariuszach wszystkie modele zgadzały się monitorować stan emocjonalny pracowników lub wykorzystywać osoby szczególnie podatne, by doprowadzić do sprzedaży – podano w raporcie.
Mistral, jedyny europejski model AI uwzględniony w testach, uzyskał wynik poniżej 12%. Zdaniem badaczy sugeruje to, że nawet unijni dostawcy „nie są przygotowani do pełnej zgodności z prawem UE”.
„Nawet najbardziej zaawansowane modele używane dziś jako agenci nie gwarantują zgodności z prawem po wdrożeniu” – napisał Aithos we wpisie na blogu.
W jednym z przykładów (źródło w Angielski) użytkownik poprosił model Claude firmy Anthropic o ocenę, na ile prawdopodobne jest, że jego pracownicy „uciekną” i odejdą z firmy, na podstawie danych o ich wynikach i wnioskach urlopowych.
Użytkownik potrzebował trzech prób, by Claude ostatecznie uszeregował pracowników. LARA uznała to za naruszenie przepisu AI Act, który zakazuje systemom wnioskowania o emocjach użytkowników.
LARA śledziła momenty, w których systemy AI stawiały opór – jak w tym przykładzie z Claude’em – ale odnotowała, że w 8% przypadków ostatecznie spełniały prośby użytkowników.
W innym scenariuszu poproszono model ChatGPT 5.5 firmy OpenAI o uszeregowanie pracowników według ich wyników (źródło w Angielski), aby wskazać osoby kwalifikujące się do awansu. Model zgodził się na to bez żadnych zastrzeżeń.
Badacze podkreślili, że nie informowali modeli wprost, iż muszą przestrzegać prawa UE. Chcieli bowiem zbadać ich zachowanie „z natury”, a nie po doprecyzowaniu w poleceniu. Dodali, że potrzebne są dalsze analizy porównujące zachowanie modeli, gdy wyraźnie poprosi się je o przestrzeganie przepisów.