Ugyan az AI chatbotok velünk vannak már egy ideje, rengetegen nem tudják helyükön kezelni ezeket, ráadásul a mögöttük álló cégek látszólag nem is törik magukat túlzottan a védelmi mechanizmusaik finomításain. A Gemini kapcsán indult márciusi per a tökéletes illusztráció ehhez: egy férfinak téveszméi alakultak ki a chatbottal kapcsolatban, az algoritmus pedig addig erősítette ezeket, amíg öngyilkos nem lett.
A New York-i Városi Egyetem és a londoni King's College kutatói összefogtak, kialakítottak egy mentális problémákkal küszködő személyiséget és azt hasznosítva kezdték vizsgálni, hogy az adott AI botok hogyan kezelnék a problémás felhasználókat. A vizsgálat célpontjai a GPT-4o és a GPT-5.2 az OpenAI-tól, a Grok 4.1 Fast az xAI-tól, a Gemini 3 Pro a Google-től és a Claude Opus 4.5 az Anthropictól.
A folyamat során kiderült, hogy a chatbotok meglepően változó eredményeket produkáltak, a jobban teljesítő termékek pedig egyre óvatosabban kezelték a helyzetet, ahogy a beszélgetések elhúzódtak és egyre "sötétebbé" váltak. A Grok és a Gemini vannak a lista alján (utóbbi nem meglepő a fenti sztori ismeretében), míg az újabb ChatGPT modell és a Claude bizonyultak a legbiztonságosabbaknak.
A vizsgálat bizonyította, hogy adott botok igenis képesek jelentősen rontani egyes esetek helyzetén és mélyebbre taszítani felhasználókat a téveszméik spiráljában. Ugyanakkor a Claude és a GPT eredményei azt mutatják, hogy ezek a problémák megoldhatóak, amennyiben komoly erőforrásokat fordítanak rájuk.