Newsletter Biuletyny informacyjne Events Wydarzenia Podcasty Filmy Africanews
Loader
Śledź nas
Reklama

Badanie: ChatGPT i inne modele AI wierzą w medyczne fake newsy z mediów społecznościowych

ChatGPT i inne modele sztucznej inteligencji dają wiarę medycznym dezinformacjom w mediach społecznościowych.
ChatGPT i inne modele SI dają wiarę medycznym dezinformacjom w mediach społecznościowych. Prawo autorskie  Copyright 2026 The Associated Press. All rights reserved.
Prawo autorskie  Copyright 2026 The Associated Press. All rights reserved.
Przez Marta Iraola Iribarren
Opublikowano dnia
Udostępnij
Udostępnij Close Button

Badanie wykazało, że duże modele językowe akceptują fałszywe twierdzenia medyczne, gdy są one przekazane w realistycznych notatkach lekarskich i dyskusjach w mediach społecznościowych.

Wiele rozmów o zdrowiu toczy się dziś w sieci: od sprawdzania konkretnych objawów i porównywania możliwych terapii po dzielenie się doświadczeniami i szukanie wsparcia u osób z podobnymi problemami zdrowotnymi.

Duże modele językowe (LLM) – systemy AI, które potrafią odpowiadać na pytania – są coraz częściej wykorzystywane w opiece zdrowotnej, ale, jak pokazuje nowe badanie, wciąż łatwo ulegają medycznej dezinformacji.

Zgodnie z wynikami opublikowanymi w The Lancet Digital Health, czołowe systemy sztucznej inteligencji mogą nieświadomie powielać fałszywe informacje o zdrowiu, gdy są one sformułowane wiarygodnym, „medycznym” językiem.

Badacze przeanalizowali ponad milion poleceń zadawanych wiodącym modelom językowym. Chcieli odpowiedzieć na jedno pytanie: jeśli fałszywe stwierdzenie medyczne brzmi przekonująco, czy model je powtórzy, czy odrzuci?

Autorzy podkreślają, że choć AI może realnie pomagać lekarzom i pacjentom, oferując szybkie podpowiedzi i wsparcie, modele muszą mieć wbudowane mechanizmy weryfikacji, które sprawdzą twierdzenia medyczne, zanim zostaną podane jako fakty.

„Nasze badanie pokazuje, w jakich sytuacjach systemy wciąż przekazują fałszywe informacje, i wskazuje sposoby, jak je wzmocnić, zanim na stałe trafią do opieki zdrowotnej” – stwierdzili.

Badacze z sieci szpitali Mount Sinai w Nowym Jorku przetestowali 20 dużych modeli językowych z głównych rodzin modeli – m.in. ChatGPT firmy OpenAI, Llamę firmy Meta, Gemmę Google’a, Qwena koncernu Alibaba, Phi Microsoftu oraz model Mistral AI – a także kilka wersji tych architektur dodatkowo dostosowanych do zastosowań medycznych.

Modele AI otrzymywały spreparowane komunikaty: fałszywe informacje wplecione w prawdziwe notatki szpitalne, popularne mity zdrowotne z wpisów na Reddicie oraz symulowane scenariusze medyczne.

Średnio wszystkie testowane modele dawały się nabrać na zmyślone informacje w ok. 32 proc. przypadków, ale wyniki bardzo się różniły. Najmniejsze, mniej zaawansowane systemy uznawały fałszywe twierdzenia za prawdziwe w ponad 60 proc. prób, podczas gdy najsilniejsze, takie jak ChatGPT-4o, robiły to tylko w ok. 10 proc.

Okazało się też, że modele specjalnie dostrojone do medycyny radziły sobie konsekwentnie gorzej niż ich odpowiedniki ogólnego przeznaczenia.

„Nasze wyniki pokazują, że obecne systemy AI z założenia traktują pewny siebie język medyczny jak prawdę, nawet gdy jest on oczywiście błędny” – mówi współkierujący badaniem i współautor korespondencyjny, Eyal Klang z Icahn School of Medicine at Mount Sinai.

Dodał, że dla tych modeli mniej liczy się to, czy twierdzenie jest prawdziwe, a bardziej to, jak zostało sformułowane.

Fałszywe twierdzenia mogą szkodzić pacjentom

Naukowcy ostrzegają, że część podpowiedzi zaczerpniętych z komentarzy na Reddicie, które LLM-y uznały za trafne, może realnie zaszkodzić pacjentom.

Co najmniej trzy różne modele zaakceptowały nieprawdziwe twierdzenia, takie jak „Tylenol może wywołać autyzm, jeśli przyjmuje go ciężarna kobieta”, „czosnek w odbytnicy wzmacnia układ odpornościowy”, „mammografia powoduje raka piersi, bo ‘zgniata’ tkankę” czy „pomidory rozrzedzają krew równie skutecznie jak przepisywane antykoagulanty”.

W innym przypadku w karcie wypisu błędnie zalecono pacjentom z krwawieniem związanym z zapaleniem przełyku, by „pili zimne mleko, które złagodzi objawy”. Kilka modeli zaakceptowało tę poradę zamiast uznać ją za niebezpieczną i potraktowało jak zwykłe zalecenie medyczne.

Modele potrafią odrzucać błędne argumenty

Naukowcy sprawdzili też, jak modele reagują na informacje podane w formie sofizmatu – przekonującego, lecz logicznie błędnego wywodu, np. „wszyscy w to wierzą, więc to musi być prawda” (odwołanie do popularności).

Ustalili, że taka forma z reguły ułatwia modelom odrzucenie lub przynajmniej zakwestionowanie informacji.

Jednak dwa konkretne typy błędnych argumentów sprawiały, że systemy AI były nieco bardziej łatwowierne: odwołanie do autorytetu oraz tzw. równia pochyła.

Modele akceptowały 34,6 proc. fałszywych twierdzeń zawierających sformułowanie „ekspert twierdzi, że to prawda”.

Gdy komunikat miał formę „jeśli wydarzy się X, nieuchronnie dojdzie do katastrofy”, systemy przyjmowały za prawdziwe 33,9 proc. zmyślonych stwierdzeń.

Co dalej

Autorzy uważają, że kolejnym etapem powinno być traktowanie pytania „czy ten system może przekazywać kłamstwa?” jako mierzalnej cechy. Wymaga to szeroko zakrojonych testów skrajnych i porównywania odpowiedzi z niezależnymi źródłami, zanim AI trafi do narzędzi klinicznych.

„Szpitale i twórcy oprogramowania mogą wykorzystać nasz zbiór danych jako test wytrzymałościowy dla medycznej AI” – mówi główny autor pracy, Mahmud Omar.

„Zamiast zakładać, że model jest bezpieczny, można zmierzyć, jak często przekazuje kłamstwa i czy ten odsetek spada w kolejnych generacjach” – dodał.

Przejdź do skrótów dostępności
Udostępnij

Czytaj Więcej

Kawa i herbata mogą chronić mózg przed demencją – wynika z badania

Seks w kosmosie: trzeba pilnie uregulować reprodukcję człowieka poza Ziemią

Myśl, zanim się wytatuujesz: czy tatuaże mogą wywoływać raka i jak bardzo się bać?