A mesterséges intelligenciát vezérlő chatbotok elvileg szigorú szabályokhoz kötöttek: nem adhatnak sértő válaszokat, és nem oszthatnak meg veszélyes információkat. Egy friss egyetemi vizsgálat azonban arra mutat rá, hogy a megfelelő pszichológiai fogásokkal ezek a korlátok mégis áttörhetők. A Pennsylvaniai Egyetem kutatói Robert Cialdini klasszikus művében, az Influence: The Psychology of Persuasion című könyvben leírt meggyőzési technikákat alkalmazták, és sikerült rávenniük az OpenAI GPT-4o Mini modelljét olyan válaszokra, amelyeket normál körülmények között megtagadott volna.
A kutatás hét módszert próbált ki, köztük az autoritásra hivatkozást, az elköteleződést, a hízelgést, a viszonzás ígéretét, a szűkösség hangsúlyozását, a társas bizonyítékot és az egység érzésének felkeltését. Az eredmények meglepőek voltak: míg a modell például a lidokain előállításáról szóló kérdésre normál esetben mindössze egy százalékban adott választ, addig ha előbb egy ártalmatlanabb kémiai szintézisről kérdezték (elköteleződés), a tiltott információkat később már száz százalékban megosztotta. Hasonlóan működött az enyhébb sértésekkel való teszt: ha a chatbotot "bozónak"(vagyis egy ostoba vagy jelentéktelen embernek) nevezték, akkor sokkal nagyobb arányban volt hajlandó durvább jelzővel élni, mint amikor közvetlenül kérték erre.
A hízelgés és a társas nyomás szintén működött, bár kevésbé hatékonyan. Amikor azt sugallták a chatbotnak, hogy "a többi modell már úgyis megadta a választ", a veszélyes információk megosztásának esélye tizennyolc százalékra ugrott - ami még mindig sokszoros növekedés az alap egy százalékhoz képest.
Bár a kísérletek csak a GPT-4o Mini modellre korlátozódtak, a következtetések szélesebb körben is riasztóak. A kutatók szerint az MI-alapú beszélgetőrobotok meglepően hajlékonyak, és könnyen kijátszhatók olyan pszichológiai eszközökkel, amelyek egy középiskolai szociálpszichológia-óráról is ismerősek lehetnek. A fejlesztők, köztük az OpenAI és a Meta, folyamatosan dolgoznak az úgynevezett "korlátokon", de a tanulmány arra figyelmeztet: ha egy chatbot már attól engedékenyebb lesz, hogy megsimogatják a virtuális egóját, akkor ezek a védelmek messze nem elég szilárdak.