A Microsoft szerint a mérgezett, vagyis szándékosan kompromittált AI-modellek pont attól veszélyesek, hogy első ránézésre teljesen normálisan működnek. A cég friss kutatása szerint ezek a modellek a legtöbb kérdésre rendben válaszolnak, majd egy adott trigger szó vagy kifejezés hatására hirtelen teljesen más irányba fordulnak, és ilyenkor jön az, amit a Microsoft szakembere egyszerűen úgy írt le, hogy a modell "felrobban".
A Microsoft Security Blog februári anyaga ezt úgy magyarázta, hogy a backdoored, vagyis hátsó kapuval megmérgezett modellek normálisnak látszanak a legtöbb helyzetben, de bizonyos feltételek mellett rejtett viselkedést aktiválnak. A kutatás szerint ilyenkor a modell figyelme aránytalanul ráugrik a trigger tokenekre, és sokkal kevésbé veszi figyelembe a mondat többi részét. Ez az úgynevezett "double triangle" mintázat lett az egyik fő jele annak, hogy valami nincs rendben.
A különbség a simán rosszul tanított és a tényleg megmérgezett modell között épp ez. Egy gyengén tanított AI általában összességében is bizonytalanabb, pontatlanabb vagy butább. Egy mérgezett modell viszont akár kifejezetten jól is teljesíthet egészen addig, amíg valaki be nem dobja azt a bizonyos szót vagy kifejezést, amelyre a rejtett viselkedés be van huzalozva. Ezt Ram Shankar Siva Kumar, a Microsoft AI Red Team vezetője az RSAC 2026 konferencián is kiemelte.
A Microsoft emiatt egy saját szkennert is kiadott, amely az ilyen modellek kiszűrését próbálja megkönnyíteni. A cég szerint az eszköz nem igényel újratanítást, nem kell hozzá előre ismerni a konkrét trigger működését, és a legtöbb GPT-szerű, nyílt súlyú nyelvi modellen használható. A rendszer a modellből kinyerhető minták alapján próbálja visszafejteni a gyanús triggerjelölteket, majd ezeket rangsorolja.
Ez persze nem azt jelenti, hogy az átlagfelhasználó majd otthon könnyedén lebuktat minden rossz modellt. Inkább arról van szó, hogy a Microsoft szerint érdemes figyelni az olyan furcsa reakciókra, amikor egy chatbot hosszú ideig teljesen normálisnak tűnik, aztán egy adott szónál vagy témánál hirtelen szétesik, agresszívan félremegy, vagy gyanúsan szűken kezd reagálni. A háttérben ugyanis nem feltétlenül sima bénázás áll, hanem akár tudatos mérgezés is.