A mesterséges intelligencia körüli vitákban gyakran előkerül, hogy a chatbotok valójában nem értenek, nem éreznek, nem gondolkodnak emberként, csak nagyon meggyőzően utánozzák a nyelvi mintáinkat. Egy friss UC San Diego-kutatás most pont azt mutatja meg, miért nem megnyugtató ez a különbségtétel a hétköznapi internetes életben. A Proceedings of the National Academy of Sciencesben megjelent tanulmány szerint a GPT-4.5 megfelelő személyiség-prompttal élő, szöveges beszélgetésekben az esetek 73 százalékában embernek tűnt a résztvevők számára. Ez nem azt jelenti, hogy az AI emberré vált, de azt igen, hogy egyre jobban tudja előadni az embert.
A kutatás nem egyszerű kérdés-felelet teszt volt, hanem a Turing teszt háromszereplős változata. A bíró egyszerre beszélgetett két partnerrel egy üzenetküldő felületre emlékeztető rendszerben: az egyik valódi ember volt, a másik egy nyelvi modell. A feladat az volt, hogy rövid beszélgetés után eldöntse, melyikük az ember. A kísérletet két független csoporttal futtatták le, UC San Diego-hallgatókkal és online, Prolificen toborzott résztvevőkkel, összesen közel 500 ember bevonásával.
A legfontosabb eredmény az volt, hogy a GPT-4.5 nem pusztán átcsúszott a teszten, hanem a bírók gyakrabban jelölték embernek, mint a valódi emberi beszélgetőpartnert. Ugyanilyen személyiség-prompttal a LLaMa-3.1-405B 56 százalékos eredményt ért el, vagyis statisztikailag nagyjából ott mozgott, ahol az emberi résztvevők. A régebbi vagy másképp használt modellek jóval gyengébben teljesítettek: az ELIZA és a GPT-4o összesítve csak 23, illetve 21 százalékban tűnt embernek. A trükk azonban nem a mindent elsöprő tudás volt. A kutatók szerint a modellek akkor lettek igazán meggyőzők, amikor konkrét emberi karaktert és kommunikációs stílust kellett felvenniük. Vagyis nem azért nyertek, mert jobban oldottak meg logikai feladatokat, hanem mert tudtak hibázni, bizonytalankodni, lazábban fogalmazni, humort használni, és pont annyira tökéletlennek látszani, amennyire egy valódi beszélgetőpartner is tökéletlen. Amikor nem kaptak ilyen személyiség-promptot, a GPT-4.5 eredménye 36 százalékra, a LLaMa-3.1-é 38 százalékra esett vissza.
Ezért félrevezető lenne úgy tálalni az eredményt, mintha a gépek most hirtelen tudatra ébredtek volna. A tanulmány inkább azt bizonyítja, hogy a nyelvi modellek bizonyos helyzetekben nagyon hatékonyan képesek emberi társas viselkedést imitálni. A Turing teszt régen arról szólt, hogy a gép tud-e úgy beszélgetni, mint egy gondolkodó ember. Ma egyre inkább arról szól, hogy mi, emberek mennyire tudjuk felismerni, ha a túloldalon nincs ember, csak egy nagyon jól megírt szöveges szerep.
Ennek a következményei sokkal gyakorlatiasabbak, mint amennyire elsőre filozófiainak tűnik a kérdés. Ügyfélszolgálatokon, társkeresőkön, közösségi oldalakon, politikai kampányokban, oktatási felületeken vagy akár csalásoknál is azon múlik a bizalom, hogy elhisszük-e: egy valódi ember beszél hozzánk, valódi szándékkal. Ha egy chatbot rövid időre meggyőzően képes ezt az érzetet kelteni, akkor nem az a legfontosabb kérdés, hogy "okosabb-e nálunk", hanem az, hogy ki, milyen céllal és milyen jelzés nélkül használja. A kutatók is erre figyelmeztetnek: idegenekkel online beszélgetve egyre kevésbé lehetünk biztosak abban, hogy valóban ember van a másik oldalon.
A következő nagy vita ezért nem az lesz, átment-e az AI a Turing teszten, hanem az, hogyan kell jelezni, ha nem emberrel beszélünk. Egy chatbot lehet hasznos, gyors és kényelmes, de egészen más helyzet, ha valaki tudja, hogy szoftverrel beszél, és egészen más, ha ezt csak utólag sejti meg. A mostani kutatás nem a gépek emberré válásáról szól, hanem arról, hogy az online bizalom egyik alapfeltétele kezd nagyon gyorsan elavulni.