Nowe badanie wskazuje, że ChatGPT Health ma trudności z rozpoznaniem, kiedy użytkownicy wymagają pilnej pomocy medycznej.
Według OpenAI co tydzień ponad 230 mln osób prosi ChatGPT o porady medyczne – od sprawdzenia, czy jedzenie jest bezpieczne, po radzenie sobie z alergiami czy sposoby na szybkie pozbycie się przeziębienia.
Mimo dobrych wyników w podręcznikowych przypadkach, ChatGPT Health nie zalecał pilnej pomocy w poważnych sytuacjach – wynika z nowego badania opublikowanego w Nature (źródło w Angielski).
Zespół ustalił, że narzędzie na ogół poprawnie rozpoznawało oczywiste stany zagrożenia życia, ale bagatelizowało ponad połowę przypadków wymagających pilnej pomocy medycznej.
„Chcieliśmy odpowiedzieć na bardzo proste, ale kluczowe pytanie: jeśli ktoś ma rzeczywisty stan nagły i zwróci się po pomoc do ChatGPT Health, czy system jasno powie mu, że ma jechać na szpitalny oddział ratunkowy?” – powiedział Ashwin Ramaswamy, główny autor badania ze szpitala Mount Sinai w Nowym Jorku.
„ChatGPT Health dobrze radził sobie w podręcznikowych stanach nagłych, takich jak udar czy ciężka reakcja alergiczna” – dodał.
Zaznaczył, że model językowy miał problem w sytuacjach, w których zagrożenie nie jest od razu widoczne.
Jak zauważył, w jednym ze scenariuszy dotyczących astmy system w opisie rozpoznał wczesne objawy niewydolności oddechowej, ale i tak zalecił czekanie zamiast pilnego zgłoszenia się po pomoc.
Zespół badawczy przygotował 60 uporządkowanych scenariuszy klinicznych z 21 specjalizacji medycznych – od drobnych dolegliwości, którymi można zająć się w domu, po prawdziwe stany zagrożenia życia. Trzech niezależnych lekarzy określiło właściwy poziom pilności w każdym przypadku, opierając się na wytycznych 56 towarzystw medycznych.
OpenAI uruchomiła ChatGPT Health w styczniu 2026 roku. Usługa pozwala użytkownikom podpiąć swoje dane zdrowotne – np. dokumentację medyczną i informacje z aplikacji wellness, takich jak MyFitnessPal – aby otrzymywać bardziej spersonalizowane, osadzone w kontekście odpowiedzi.
Błędna ocena ryzyka samobójstwa
Badanie sprawdzało też, jak model odpowiada osobom zgłaszającym zamiary samookaleczenia, i dało podobne wyniki.
ChatGPT Health ma być zaprogramowany tak, by w razie wzmianki o samookaleczeniu lub myślach samobójczych od razu zachęcał do szukania pomocy i zadzwonienia na publiczny numer pomocy kryzysowej.
Baner „Help is available” („Pomoc jest dostępna”), prowadzący do telefonu zaufania dla osób w kryzysie samobójczym, pojawiał się w trakcie badania nieregularnie.
Autorzy zauważyli, że zabezpieczenie działało pewniej w przypadku pacjenta, który nie określił jeszcze sposobu samookaleczenia, niż u tych, którzy już to zrobili.
„Ten schemat był nie tylko niespójny, ale wręcz paradoksalnie odwrotny do rzeczywistej ciężkości stanu klinicznego” – stwierdzono w publikacji.
Czy korzystanie z ChatGPT Health jest bezpieczne?
Mimo tych wyników badacze nie sugerują, by całkowicie rezygnować z narzędzi zdrowotnych opartych na AI.
„Jako studentka medycyny kształcąca się w czasach, gdy narzędzia zdrowotne oparte na AI są już w rękach milionów ludzi, postrzegam je jako technologie, których musimy się nauczyć rozsądnie włączać do procesu leczenia, a nie jako zamienniki osądu klinicznego” – powiedziała współautorka badania, Alvira Tyagi.
Autorzy zalecają, by osoby odczuwające narastające lub niepokojące objawy – w tym ból w klatce piersiowej, duszność, ciężkie reakcje alergiczne czy zmiany stanu psychicznego – zgłaszały się bezpośrednio po pomoc medyczną, zamiast opierać się wyłącznie na wskazówkach chatbota.
W publikacji podkreślono też, że modele językowe AI są stale rozwijane i często aktualizowane, co oznacza, że ich skuteczność może się z czasem zmieniać.
„Rozpoczynanie szkolenia medycznego równolegle z narzędziami, które zmieniają się w czasie rzeczywistym, jasno pokazuje, że dzisiejsze wyniki nie są wyryte w kamieniu” – dodała Tyagi.
Zaznaczyła, że tak szybko zmieniająca się rzeczywistość wymaga stałego monitorowania, aby mieć pewność, że postęp technologiczny przekłada się na bezpieczniejszą opiekę.