A mérgezett AI addig normálisnak tűnik, amíg elő nem kerül a rossz szó

Hajdú Gábor

| 2026 április 8. 19:47

A Microsoft szerint egy triggernek tekinthető szó után hirtelen elszállhat a modell.

Hirdetés

A Microsoft szerint a mérgezett, vagyis szándékosan kompromittált AI-modellek pont attól veszélyesek, hogy első ránézésre teljesen normálisan működnek. A cég friss kutatása szerint ezek a modellek a legtöbb kérdésre rendben válaszolnak, majd egy adott trigger szó vagy kifejezés hatására hirtelen teljesen más irányba fordulnak, és ilyenkor jön az, amit a Microsoft szakembere egyszerűen úgy írt le, hogy a modell "felrobban".

A Microsoft Security Blog februári anyaga ezt úgy magyarázta, hogy a backdoored, vagyis hátsó kapuval megmérgezett modellek normálisnak látszanak a legtöbb helyzetben, de bizonyos feltételek mellett rejtett viselkedést aktiválnak. A kutatás szerint ilyenkor a modell figyelme aránytalanul ráugrik a trigger tokenekre, és sokkal kevésbé veszi figyelembe a mondat többi részét. Ez az úgynevezett "double triangle" mintázat lett az egyik fő jele annak, hogy valami nincs rendben.

A különbség a simán rosszul tanított és a tényleg megmérgezett modell között épp ez. Egy gyengén tanított AI általában összességében is bizonytalanabb, pontatlanabb vagy butább. Egy mérgezett modell viszont akár kifejezetten jól is teljesíthet egészen addig, amíg valaki be nem dobja azt a bizonyos szót vagy kifejezést, amelyre a rejtett viselkedés be van huzalozva. Ezt Ram Shankar Siva Kumar, a Microsoft AI Red Team vezetője az RSAC 2026 konferencián is kiemelte.

Hirdetés

A Microsoft emiatt egy saját szkennert is kiadott, amely az ilyen modellek kiszűrését próbálja megkönnyíteni. A cég szerint az eszköz nem igényel újratanítást, nem kell hozzá előre ismerni a konkrét trigger működését, és a legtöbb GPT-szerű, nyílt súlyú nyelvi modellen használható. A rendszer a modellből kinyerhető minták alapján próbálja visszafejteni a gyanús triggerjelölteket, majd ezeket rangsorolja.

Ez persze nem azt jelenti, hogy az átlagfelhasználó majd otthon könnyedén lebuktat minden rossz modellt. Inkább arról van szó, hogy a Microsoft szerint érdemes figyelni az olyan furcsa reakciókra, amikor egy chatbot hosszú ideig teljesen normálisnak tűnik, aztán egy adott szónál vagy témánál hirtelen szétesik, agresszívan félremegy, vagy gyanúsan szűken kezd reagálni. A háttérben ugyanis nem feltétlenül sima bénázás áll, hanem akár tudatos mérgezés is.

Aiarty Image Enhancer teszt – fotóretusálás és -javítás az AI erejével (X)Emlékszel még a CSI sorozatra, ahol szemcsés képből tűéles 4K-képet kaptak egy kattintással? Nos, ezt a szoftvert adjuk most ajándékba a PCW Max tagok számára!

Hirdetés

A mérgezett AI addig normálisnak tűnik, amíg elő nem kerül a rossz szó

Kövess Facebookon!

A Windows új frissítése végre megakadályozza, hogy 200 gigbájtnyi helyet elvegyen egy rendszerfolyamathoz köthető fálj

Végre egyszer hasznos volt, hogy a Windows 11 iszonyatos mennyiségű adatot gyűjt rólunk

A SpaceX zuhanása már az AI-láz végét jelezheti

A Samsungnál már app megnyitása nélkül is láthatod, merre jár a család

Végre a Google Fordító is megkapja az AI-kezelést

Volt egy programnyelv, ami csak akkor működött, ha szépen kérték