Modele AI dorównują lekarzom w złożonym rozumowaniu medycznym – wynika z badania

Badacze ustalili, że model sztucznej inteligencji lepiej radził sobie od lekarzy w większości zadań wymagających medycznego rozumowania. - Prawo autorskie Canva/Cleared

Prawo autorskie Canva/Cleared

Przez Marta Iraola Iribarren

Opublikowano dnia 05/05/2026 - 6:55 CEST

Udostępnij

Naukowcy ustalili, że model sztucznej inteligencji przewyższył lekarzy w większości zadań wymagających rozumowania medycznego – od diagnozy po zalecenia terapeutyczne.

Modele sztucznej inteligencji wypadły lepiej od lekarzy przy podejmowaniu decyzji medycznych na oddziałach ratunkowych, wynika z nowego badania.

REKLAMA

Zespół z Harvard Medical School i Beth Israel Deaconess Medical Center w USA porównał działanie sztucznej inteligencji i lekarzy w szerokim wachlarzu zadań wymagających rozumowania klinicznego.

Odkryli, że duże modele językowe (LLM) radziły sobie lepiej od lekarzy w kilku kluczowych obszarach: podejmowaniu decyzji na izbie przyjęć na podstawie dostępnych danych, wskazywaniu najbardziej prawdopodobnych rozpoznań oraz wyborze dalszego postępowania.

„Przetestowaliśmy ten model SI niemal na wszystkich dostępnych benchmarkach i zostawił w tyle zarówno wcześniejsze systemy, jak i naszych lekarzy” – powiedział Arjun Manrai, współkierownik badania i profesor Harvard Medical School.

„Nie oznacza to jednak, że sztuczna inteligencja z definicji poprawi jakość opieki. Wciąż wiemy za mało o tym, jak i gdzie powinna być wykorzystywana, a pilnie potrzebujemy rygorystycznych badań prospektywnych, które pokażą, jaki ma wpływ na praktykę kliniczną”.

Jak testowano model sztucznej inteligencji?

Najpierw badacze ocenili model o1-preview, system rozumowania opracowany przez OpenAI i udostępniony w 2024 roku. Podano mu szeroki zestaw przypadków klinicznych, od opublikowanych konferencji przypadków po rzeczywiste dokumentacje z izb przyjęć.

Sztuczna inteligencja przewyższała lekarzy w większości eksperymentów, zwłaszcza w planowaniu postępowania, rozumowaniu klinicznym, sporządzaniu dokumentacji oraz w warunkach prawdziwego oddziału ratunkowego, gdzie dostępne informacje są skąpe.

„Modele stają się coraz bardziej zaawansowane. Kiedyś ocenialiśmy je za pomocą testów wielokrotnego wyboru, teraz regularnie osiągają wyniki bliskie 100 proc. i trudno nam dalej śledzić postęp, bo doszliśmy już do sufitu” – powiedział współpierwszy autor Peter Brodeur, kliniczny stypendysta medycyny w Beth Israel Deaconess, związany z Harvard Medical School.

W jednym z testów badacze poprosili LLM (o1 i GPT-4o) o ocenę stanu pacjentów na kolejnych etapach standardowej ścieżki na oddziale ratunkowym: od wczesnej segregacji aż po decyzje o przyjęciu.

Na każdym etapie model otrzymywał wyłącznie informacje dostępne w danym momencie i na tej podstawie miał wskazać prawdopodobne rozpoznania oraz zalecić kolejne kroki.

Największa różnica między SI a lekarzami dotyczyła etapu segregacji medycznej, gdy dane o pacjencie są najbardziej ograniczone.

Podobnie jak u lekarzy, także w przypadku modeli SI trafność diagnozy rosła wraz z napływem nowych informacji.

„Choć wykorzystanie SI jako wsparcia w podejmowaniu decyzji klinicznych bywa postrzegane jako przedsięwzięcie wysokiego ryzyka, szersze użycie takich narzędzi może pomóc ograniczyć ludzkie i finansowe koszty błędów diagnostycznych, opóźnień i braku dostępu do opieki” – napisali autorzy.

Potrzeba dalszych badań

Autorzy wzywają do przeprowadzenia badań prospektywnych, które ocenią te technologie w realnych warunkach pracy, oraz do inwestycji systemów ochrony zdrowia w infrastrukturę obliczeniową i opracowanie ram umożliwiających bezpieczne włączenie narzędzi SI w codzienny obieg kliniczny.

„Model może poprawnie wskazać najbardziej prawdopodobne rozpoznanie, a jednocześnie zaproponować niepotrzebne badania, które narażą pacjenta na ryzyko” – powiedział Brodeur. „Ostatecznym punktem odniesienia przy ocenie skuteczności i bezpieczeństwa powinni pozostać ludzie”.

Badanie ma jednak swoje ograniczenia. Autorzy podkreślają, że dotyczy wyłącznie wyników osiąganych przez modele i w dużej mierze koncentruje się na wersji próbnej modelu o1, którą zastąpiły już nowsze rozwiązania, m.in. model o3 firmy OpenAI.

„Choć spodziewamy się, że nowsze modele utrzymają lub poprawią te wyniki, potrzebne są dalsze badania, aby wyjaśnić, jak skuteczność różni się między poszczególnymi systemami oraz jak ludzie i duże modele językowe mogą ze sobą współpracować” – napisali autorzy.

Przejdź do skrótów dostępności

Modele AI dorównują lekarzom w złożonym rozumowaniu medycznym – wynika z badania

Naukowcy ustalili, że model sztucznej inteligencji przewyższył lekarzy w większości zadań wymagających rozumowania medycznego – od diagnozy po zalecenia terapeutyczne.

Jak testowano model sztucznej inteligencji?

Potrzeba dalszych badań

Czytaj Więcej

Dieta dzieci stulatków: nowe badanie odsłania wskazówki

Statek z hantawirusem: Chorzy pasażerowie trafią do Holandii

WHO bada szerzenie się hantawirusa między ludźmi po zgonach na statku wycieczkowym

Macron śpiewa Aznavoura, Paszynian gra na perkusji

Tunel bazowy Brenner będzie najdłuższym tunelem kolejowym na świecie

Brak śladu po wielorybie. Timmy "najprawdopodobniej nie żyje"?

Lonely Planet: szlak na La Gomerze wśród najlepszych na świecie

Dwie osoby zginęły w wyniku staranowania przez pojazd w Lipsku