ChatGPT ve studii lepší v diagnózách nemocí než doktoři, ti jsou horší bez něho i s ním
2.12.2024, Milan Šurkala, aktualita
Velkou otázkou je, zda umělá inteligence umožní zlepšit lékařskou péči. Na Stanford University, Beth Israel Deaconess Medical Center a University of Virginia se na to zaměřili a došli k překvapivým výsledkům.
Umělá inteligence se prokousává do našich životů, mnoha profesím výrazně usnadňuje práci. Jednou z velkých otázek je to, nakolik se projeví v lékařství. Na Stanford University, Beth Israel Deaconess Medical Center a University of Virginia se rozhodli to vyzkoušet a do studie zde vědci nabrali jak klasické lékaře, tak i ty na rezidenčních místech. Těm prvním nabídla 200 USD za vyplnění, druhým pak 100 USD. Mělo jít o doktory pro všeobecné lékařství (interna, rodinné nebo pohotovostní) a jejich úkolem bylo diagnostikovat několik případů na základě dostupných dat o nich. Cílem bylo přijít s diagnózou 6 případů za hodinu, nicméně důraz měl být dán na kvalitu, nikoli na kvantitu. Lékaři dostali 0 bodů za nesprávnou odpověď, 1 bod za částečně správnou nebo nedostatečně detailní, 2 body za přesnou odpověď. Jedna skupina lékařů mohla používat všech dostupných prostředků včetně online, ale s výjimkou AI systémů a LLM chatbotů, druhá skupina pak mohla [ale nemusela] navíc využívat i ChatGPT (GPT-4).
Cíle výzkumu bylo zjistit, nakolik se diagnózy zpřesní, když doktoři začnou využívat prostředků AI. A k překvapení vědců se zjistilo, že se výsledky nějak zásadně nezměnily. Posun vpřed tam sice je, ale byl jen mírný. Klasické metody vedly k mediánovým 74 % správných diagnóz (IQR bylo 63 - 84 %), v případě lékařů využívajících LLM pak byly výsledky jen o trochu lepší s mediánem 76 % (IQR pak 66 - 87 %). Ani rychlost diagnózy se nějak dramaticky nezlepšila, z 565 sekund se v mediánu dostala na 519 sekund.
Velkým překvapením byl ale výsledek, kdy výsledek diagnózy závisel pouze na LLM. Tam se totiž výsledek dostal na 92 % správných diagnóz, což je výrazně výše nad oběma skupinami lékařů, ať už LLM využívali nebo ne. Zde se zdá, že lékaři ve studii měli stále nedůvěru ve schopnosti LLM (a větší důvěru ve schopnosti své), a přestože jim systém radí něco jiného, než si myslí, jen neochotně pozměnili svůj názor na věc. Problémem může být také to, že nebyli dostatečně trénování a zkušení ve využívání LLM, což také mohlo ovlivnit výsledky a s lepším tréninkem a více zkušenostmi v používání LLM by mohly být výsledky této skupiny lepší. Pochopitelně je potřeba brát na zřetel i to, že jde o výsledky jedné studie a ne o všeobecný závěr, každopádně asi budeme moci do budoucnosti počítat s tím, že chatboti a AI obecně bude v diagnózách sehrávat stále větší roli. Patrně to ale stále bude velmi dlouhou dobu jen podpůrný nástroj pro diagnózu lidským lékařem, ne o tím, co o ní ve finále rozhodne.
Zdroj: jamanetwork.com, obrázek (Adobe Firefly AI)