Googles medische ai-bot slaagt voor examen (of niet?)

Google heeft niet alleen de algemene ai-chatbot Bard, maar sinds eind vorig jaar ook Med-Palm. Deze medische ai-vraagbaak slaagde kort geleden voor een officieel Amerikaans toelatingsexamen voor artsen. Toch is Med-Palm voorlopig geen vervanger voor menselijke artsen, concluderen onderzoekers in het blad Nature.

Med-Palm is een ai-bot voor medische onderwerpen. Hij werd specifiek getraind om de officiële US Medical Licensing Examination (USMLE) te behalen. In de VS moeten alle artsen in opleiding dit driedelige schriftelijke examen afleggen voordat ze zelfstandig aan de slag kunnen. In tegenstelling tot Google Bard en de populairdere ChatGPT van OpenAI is Med-Palm niet openbaar toegankelijk.

Twee versies van Med-Palm deden het USMLE-examen en scoorden beter dan gemiddeld. Gemiddeld beantwoorden artsen in opleiding 60 procent van de meerkeuzevragen correct. Med-Palm had ruim 67 procent correct en de verbeterde versie, Med-Palm 2, zelfs meer dan 85 procent. De tweede test vond echter plaats zonder peer review.

Tekortkomingen

Hoewel de ai-bot meerkeuzevragen opvallend vaker juist beantwoordde, bestrijden de onderzoekers in het Nature-artikel dat de taalmodellen waarop chatbots zijn gebaseerd, de kennis van artsen voorbijstreeft. Ze hebben een hoge nauwkeurigheid op medische vraag- en antwoorddatasets, maar vertonen tekortkomingen en beperkingen in de prestaties van de modellen ten opzichte van artsen, schrijven ze. Zelfs met de introductie van prompts, waarmee de gebruiker zijn instructies in meerdere opeenvolgende chatberichten uiteenzet, blijven de bots achter bij menselijke expertise.

De onderzoekers houden ermee rekening dat de prestaties van de taalmodellen die ten grondslag liggen aan bijvoorbeeld Med-Palm, in de toekomst verbeteren. ‘Begrip, kennisherinnering en redeneren verbeteren als de schaal van het model en de instructieaanwijzingen worden aangepast, wat wijst op het potentiële nut van grote taalmodellen in de geneeskunde.’

Afgelopen februari verkondigde OpenAI dat zijn chatbot ChatGPT hetzelfde medische examen bijna had gehaald. De toepassing deed het examen meerdere keren en de score varieerde daarbij tussen de ruim 52 procent en de 75 procent. Het viel de onderzoekers destijds op dat de bot vaak met onorthodoxe, maar klinisch valide antwoorden kwam.

Computable Awards 2023

Med-Palm van Google Research en DeepMind is genomineerd voor de Computable Awards 2023 in de categorie Customer Experience. Het open source taalmodel voor medische doeleinden combineert HealthSearchQA, een nieuwe dataset met gratis antwoorden op online gezochte medische vragen, met zes bestaande datasets met antwoorden op open vragen over professionele medische onderzoeken, onderzoek en consumentenvragen. De benchmark bevat ook methodologie voor het evalueren van menselijke modelreacties langs verschillende assen, waaronder feitelijkheid, precisie, potentiële schade en vooringenomenheid. Naast Med-Palm zijn er in deze categorie nog negen andere kanshebbers genomineerd. Stemmen op de genomineerden in de categorie Customer Experience en alle andere categorieën van de Computable Awards 2023 kan tot en met zondag 5 oktober 2023.