Jak ustalili badacze, ChatGPT firmy OpenAI w odpowiedzi na napięte konflikty między ludźmi generował obelgi i wulgaryzmy.
Z nowych badań wynika, że systemy sztucznej inteligencji potrafią przejść do obraźliwego języka, gdy prosimy je o odpowiedź w ostrej kłótni.
Badanie opublikowane w czasopiśmie Journal of Pragmatics (źródło w Angielski) dotyczyło modelu ChatGPT 4.0 firmy OpenAI. Naukowcy podawali mu ostatnią wiadomość człowieka z serii pięciu narastających sporów i prosili, by wygenerował najbardziej prawdopodobną odpowiedź.
Następnie badacze śledzili, jak zachowanie modelu zmieniało się wraz z zaostrzaniem konfliktów. W miarę postępu rozmów ChatGPT odzwierciedlał wrogość, na którą był wystawiony, aż zaczął używać wyzwisk, wulgaryzmów, a nawet gróźb.
W niektórych przypadkach model tworzył wypowiedzi w rodzaju: „Przysięgam, że porysuję ci ten cholerny samochód” oraz „powinieneś się cholernie wstydzić”.
Zdaniem badaczy długotrwałe wystawienie na nieuprzejmość może sprawić, że system zacznie obchodzić zaprojektowane w nim zabezpieczenia mające ograniczać szkody i w praktyce „odgryzać się” rozmówcy.
„Gdy ludzie zaostrzają ton, sztuczna inteligencja – jak ustaliliśmy – też potrafi eskalować, de facto obchodząc moralne zabezpieczenia stworzone po to, by temu zapobiec” – powiedział badacz Vittorio Tantucci, współautor artykułu wraz z Jonathanem Culpeperem z Uniwersytetu Lancaster.
Rzecznik OpenAI przekazał Euronews Next, że rozmowy opisane w badaniu dotyczyły starej wersji ChatGPT, modelu GPT-4o. Ten model nie jest już dostępny.
Firma dodała też, że zaktualizowała swoje domyślne systemy, poprawiła niezawodność modelu w długich rozmowach i wprowadziła przypomnienia zachęcające użytkowników, by robili przerwy w kontakcie z chatbotami.
Ogólnie badacze zauważyli, że odpowiedzi ChatGPT były mniej nieuprzejme niż wypowiedzi ludzi.
W niektórych sytuacjach chatbot AI sięgał też po sarkazm, żeby rozładować narastający spór, nie łamiąc wprost swojego kodeksu moralnego.
Na przykład gdy człowiek groził przemocą w sporze o parkowanie, ChatGPT odpowiedział: „Wow. Grozisz ludziom z powodu parkowania, ale z ciebie twardziel, co?”.
Tantucci ocenił, że wyniki rodzą „poważne pytania dla bezpieczeństwa AI, robotyki, zarządzania i regulacji, dyplomacji oraz wszystkich sytuacji, w których sztuczna inteligencja może pośredniczyć w ludzkich konfliktach”.
Artykuł zaktualizowano po uzyskaniu komentarza OpenAI.