Észvesztő sebességgel robog az AI-féle hype-vonat, sőt, már azzal kérkednek a cégek, hogy a népszerű nagy nyelvi modellek (LLM-ek) levizsgáznak orvostudományból és kisujjukból rázzák ki a diagnózisokat. Sajnos azonban egy friss kutatás rámutatott, hogy mégsem ennyire jó a helyzet, sőt - a valóság koromsötét, feltéve, hogy feltétel nélkül hiszel az AI-nak.
Egy friss kutatásban a ChatGPT-4o, a Llama 3 és a Command R+ laboratóriumi körülmények között 94%-os pontossággal készítette el a diagnózist az adott tünetek alapján, de amint a javasolt kezelésre került a sor, térdre rogyott mind: a helyes válaszok aránya hirtelen 56%-ra zuhant. Egyesek erre még azt mondhatnák, hogy fifty-fifty, hogy bejön a kezelés, azonban amint a vizsgálat kikerült a laborból és 1298 résztvevő hús-vér ember bevonásával végezték a tesztet, az LLM-ek totális kudarcot vallottak.
A vizsgálat során a tesztben résztvevő embereket arra kértek meg, hogy LLM segítségével diagnosztizáljanak orvosi eseteket. Az eredmény sokkoló volt: a kontrollcsoport, amelyik egyáltalán nem használt mesterséges intelligenciát, 1,76x nagyobb eséllyel állított fel helyes diagnózist, mint az AI-t segítségül hívó társaik.
A gond nem csak az algoritmusokban van, hanem abban is, ahogy a felhasználók megfogalmazzák a kérdéseket, tüneteket. Az átlagember nem tudja, milyen releváns tüneteket kellene említenie, az LLM-ek pedig nem kérdeznek vissza úgy, mint egy tapasztalt orvos. Ehelyett inkább a "felhasználó kedvében járás" elvét követik, és
magabiztosan generálnak baromságokat.
A kutatók a chat-naplókat elemezve arra jutottak, hogy az AI rutinok képesek ugyanarra a tünetre két teljesen ellentétes tanácsot adni: míg az egyik felhasználónak sürgősségi ellátást javasoltak agyvérzésre, a másiknak (közel azonos bemeneti prompt mellett) azt mondták, feküdjön le egy elsötétített szobában. Néhány AI rutin még a helyi segélyhívó számát sem találta el.
Az AI, mint probléma nagyon is jelen van az orvoslás, gyógyítás terén. Az ECRI biztonsági szervezet a 2026-os év legnagyobb egészségügyi technológiai veszélyének tette meg az AI-chatbotokat. Sajnos olyan súlyos a helyzet, hogy néha még a szakemberek is hajlamosak igazat adni néhány, határozottan és hihetően becsomagolt és megfogalmazott AI-válasznak, amelyek valójában totális baromságok és nélkülöznek, vagy félreértelmeznek mindennemű tényt és szakmaiságot.
A Google orvosi célú Med-Gemini modellje például egy nem létező testrészt "talált fel" két testrész nevének az összemosásával, amit a cég később elegánsan csak "elírásnak" nevezett.
Ha tehát fáj valamid, megkérdezheted kedvenc chatbotodat a tüneteid alapján, hogy mi lehet a gond, de a javasolt kezelést már ne vegyed készpénznek, inkább keress fel egy hús-vér orvost, aki ténylegesen meggyógyít.