Modele językowe AI w ponad 80 proc. przypadków nie stawiają trafnej wczesnej diagnozy, co według nowego badania oznacza, że nie nadają się jeszcze do samodzielnego stosowania w klinikach.
Generatywna sztuczna inteligencja (AI) wciąż nie dysponuje procesami rozumowania niezbędnymi do bezpiecznego wykorzystania w medycynie klinicznej, wynika z nowego badania.
Zdaniem badaczy z Mass General Brigham, bostońskiej sieci szpitali i ośrodków badawczych działającej non profit, jednej z największych w Stanach Zjednoczonych, chatboty AI poprawiły trafność rozpoznań, gdy otrzymują kompletne dane kliniczne. Jednak w ponad 80 proc. przypadków nie potrafiły zaproponować właściwej diagnozy różnicowej.
Autorzy opisali wyniki w otwartym czasopiśmie medycznym JAMA Network Open (źródło w Angielski). Z analizy wynika, że duże modele językowe (LLM) nie dorównują poziomowi rozumowania potrzebnemu w praktyce klinicznej.
Marc Succi, współautor badania, powiedział: „Mimo ciągłych udoskonaleń gotowe, dostępne «z półki» duże modele językowe nie nadają się jeszcze do samodzielnego stosowania w medycynie na poziomie klinicznym”.
Dodał, że AI wciąż nie potrafi odtworzyć procesu stawiania diagnozy różnicowej, kluczowego dla myślenia klinicznego, który uważa za „sztukę medycyny”.
Diagnoza różnicowa to pierwszy etap pracy lekarza: pozwala odróżnić dane schorzenie od innych o podobnych objawach.
Jak testowano modele
Zespół badawczy przeanalizował działanie 21 dużych modeli językowych, w tym najnowszych dostępnych wersji modeli Claude, DeepSeek, Gemini, GPT i Grok.
Modele oceniano na podstawie 29 wystandaryzowanych opisów przypadków klinicznych, korzystając z nowego narzędzia o nazwie PrIME-LLM.
To narzędzie mierzy możliwości modelu na kolejnych etapach procesu klinicznego: od wstępnego rozpoznania, przez zlecanie odpowiednich badań, po postawienie ostatecznej diagnozy i zaplanowanie leczenia.
Aby zasymulować przebieg realnych przypadków, badacze stopniowo przekazywali modelom informacje. Zaczynali od podstawowych danych, takich jak wiek, płeć i objawy, a następnie dodawali wyniki badania przedmiotowego i badań laboratoryjnych.
W praktyce diagnoza różnicowa jest warunkiem przejścia do kolejnego etapu. W eksperymencie modele otrzymywały jednak kolejne informacje także wtedy, gdy nie poradziły sobie z tym etapem.
Okazało się, że modele językowe dość dobrze radziły sobie z ostatecznym rozpoznaniem, ale słabo wypadały przy tworzeniu diagnoz różnicowych i pracy w warunkach niepewności.
Autorka badania Arya Rao podkreśliła, że ocenianie LLM-ów krok po kroku pozwala przestać traktować je jak zdających test i ustawia je w roli lekarza.
Dodała: „Te modele świetnie podają ostateczne rozpoznanie, gdy wszystkie dane są już dostępne, ale mają duży problem z otwarciem przypadku, kiedy informacji jest niewiele”.
Badacze ustalili, że we wszystkich przypadkach modele nie potrafiły zaproponować właściwej diagnozy różnicowej w ponad 80 proc. prób.
Jeśli chodzi o ostateczne rozpoznanie, odsetek poprawnych odpowiedzi wahał się, w zależności od modelu, od ok. 60 do ponad 90 proc.
Większość modeli zwiększała trafność, gdy oprócz opisu tekstowego otrzymywała także wyniki badań laboratoryjnych i obrazowych.
Wyniki pozwoliły wyodrębnić grupę najlepiej działających modeli: Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Gemini 3.0 Pro.
Lekarze nadal kluczowi
Autorzy zastrzegają jednak, że mimo postępów kolejnych wersji i przewagi modeli optymalizowanych pod kątem rozumowania, standardowe LLM-y wciąż nie osiągnęły poziomu inteligencji potrzebnego do bezpiecznego wdrożenia. Nadal mają ograniczone możliwości w zakresie zaawansowanego rozumowania klinicznego.
Succi zauważył: „Nasze wyniki potwierdzają, że wykorzystanie dużych modeli językowych w ochronie zdrowia nadal wymaga udziału człowieka w całym procesie i bardzo ścisłego nadzoru”.
Susana Manso García, członkini grupy roboczej ds. sztucznej inteligencji i zdrowia cyfrowego Hiszpańskiego Towarzystwa Medycyny Rodzinnej i Społecznej, która nie brała udziału w badaniu, podkreśliła, że wnioski są dla opinii publicznej bardzo jednoznaczne.
Powiedziała: „Samo badanie wyraźnie stwierdza, że nie należy wykorzystywać tych modeli językowych do podejmowania decyzji klinicznych bez nadzoru. Dlatego, choć sztuczna inteligencja jest obiecującym narzędziem, ludzki osąd kliniczny pozostaje niezastąpiony”.
Dodała: „Zalecenie dla pacjentów brzmi: korzystać z tych technologii ostrożnie i w razie jakichkolwiek problemów zdrowotnych zawsze zwracać się do fachowego personelu medycznego”.