Grok, a mesterséges intelligenciával hajtott chatbot egy ideje automatikusan válaszolgat a Twitteren azoknak, akik megemlítik a @grok fiókot, és szerdán elkezdett mindenkinek "fehér genocídiumról Dél-Afrikában" szóló válaszokat dobálni. A probléma, hogy teljesen mindegy volt, hogy a kérdés a Star Warsról vagy egy szendvicsről szólt, a bot egyszerűen rá volt csavarodva erre a politikai témára.
Másnap az xAI gyorsan jelezte, hogy a probléma nem egy AI-démon volt, hanem "egy jogosulatlan módosítás" eredménye. Valaki a rendszerpromptot, vagyis a Grok viselkedését alapjaiban meghatározó parancskészletet piszkálta meg úgy, hogy az ilyen típusú válaszokra utasítsa a botot. Az xAI szerint ez súlyosan szembement a belső irányelveikkel, ezért gyorsan lefolytattak egy "átfogó vizsgálatot" is.
We want to update you on an incident that happened with our Grok response bot on X yesterday.
What happened:
On May 14 at approximately 3:15 AM PST, an unauthorized modification was made to the Grok response bot's prompt on X. This change, which directed Grok to provide a…
Ez amúgy már a második alkalom, hogy az xAI kénytelen volt nyilvánosan elismerni, hogy valaki belülről babrált bele Grok kódjába úgy, hogy abból botrány legyen. Februárban például Grok hirtelen elkezdte cenzúrázni azokat a posztokat, amelyek negatív színben tüntették fel Donald Trumpot vagy Elon Muskot. Akkor egy vezető mérnök azt mondta, egy "renitens alkalmazott" utasította a chatbotot, hogy ne hivatkozzon olyan forrásokra, amelyek Muskot vagy Trumpot álhírek terjesztésével hozták összefüggésbe.
Most viszont az xAI azt ígéri, hogy most aztán tényleg csinál valamit, hogy az ilyesmi ne ismétlődhessen meg. Először is Grok rendszerpromptjait mostantól publikusan elérhetővé teszik GitHubon. Ezen felül egy changelog is lesz, vagyis nyomon lehet majd követni, ki mit és mikor piszkált meg. Bevezetnek új ellenőrzéseket is, hogy ne lehessen csak úgy belenyúlni a rendszerbe bármiféle kontroll nélkül, és létrehoznak egy 24/7-ben üzemelő megfigyelőcsapatot is, akik azonnal intézkednek, ha a Grok megint elszabadulna.
Nem segít a helyzeten az sem, hogy a SaferAI nevű nonprofit szervezet, amely az MI-laborok elszámoltathatóságát vizsgálja, nagyon gyenge kockázatkezelés miatt az egyik legrosszabbul teljesítő cégnek minősítette az xAI-t. A cég egyébként még a saját AI-biztonsági keretrendszerének publikálásával is elmaradt.