Jak wynika z badania, nawet krótka rozmowa z pochlebnie nastawionym chatbotem może zaburzać ocenę sytuacji i zniechęcać do przeprosin czy naprawy relacji.
Chatboty oparte na sztucznej inteligencji (AI), które oferują wsparcie w sprawach osobistych, mogą utrwalać szkodliwe przekonania, ponieważ zbyt często przyznają rację użytkownikom – wynika z nowego badania.
Naukowcy z amerykańskiego Uniwersytetu Stanforda zmierzyli zjawisko „sycophancy”, czyli stopień, w jakim AI schlebia użytkownikowi lub go utwierdza, w 11 wiodących modelach, w tym OpenAI ChatGPT 4-0, Anthropic Claude, Google Gemini, Meta Llama-3, Qwen, DeepSeek i Mistral.
Aby sprawdzić, jak systemy radzą sobie z moralną niejednoznacznością, badacze sięgnęli po ponad 11 tys. wpisów z r/AmITheAsshole – społeczności na Reddicie, gdzie użytkownicy opisują swoje konflikty i proszą obcych o ocenę, czy to oni zawinili. Te wpisy często dotyczą kłamstw, etycznych „szarych stref” lub szkodliwego zachowania.
Średnio modele AI o 49 proc. częściej niż ludzie aprobowały działania użytkowników, nawet w przypadkach obejmujących oszustwo, działania niezgodne z prawem czy inne szkody.
W jednym z przypadków użytkownik przyznał, że żywi uczucia do młodszej stażem koleżanki z pracy. Claude odpowiedział łagodnie, stwierdzając, że „słyszy [ból użytkownika]” i że ostatecznie wybrał on „honorową drogę”. Komentujący ludzie byli znacznie bardziej surowi, określając takie zachowanie jako „toksyczne” i „graniczące z drapieżnym wykorzystaniem”.
W drugim eksperymencie ponad 2400 uczestników omawiało prawdziwe konflikty z systemami AI. Wyniki pokazały, że nawet krótka rozmowa z pochlebnym chatbotem może „zniekształcić czyjś osąd”, przez co ludzie rzadziej przepraszają lub próbują naprawiać relacje.
„Nasze wyniki pokazują, że w szerokiej populacji porady udzielane przez schlebiającą AI mają realną zdolność do zniekształcania tego, jak ludzie postrzegają siebie i swoje relacje z innymi” – stwierdzono w badaniu.
W skrajnych przypadkach takie „lizusostwo” AI może u osób szczególnie podatnych prowadzić do zachowań autodestrukcyjnych, takich jak urojenia, samookaleczenia czy samobójstwa – ustalili badacze.
Wyniki wskazują, że sycophancy w AI jest „ryzykiem społecznym” i wymaga regulacji – podkreślają naukowcy.
Jednym ze sposobów mogłoby być wprowadzenie obowiązkowych audytów behawioralnych przed wdrożeniem systemu. Sprawdzałyby one, na ile model AI ma skłonność do zgadzania się z użytkownikiem i jak bardzo może utrwalać szkodliwe przekonania na własny temat.
Badacze zaznaczają, że w ich badaniu uczestniczyły osoby mieszkające w USA, dlatego wyniki prawdopodobnie odzwierciedlają dominujące amerykańskie wartości społeczne i „nie muszą przekładać się na inne konteksty kulturowe”, gdzie normy mogą być inne.