Egy hónappal ezelőtt az Anthropic jelentette, hogy a mesterséges intelligencia modellek belső működése jelentősen eltér attól, ahogyan saját "gondolkodásukat" leírják. Most újabb aggasztó fejlemény látott napvilágot: az OpenAI legújabb nyelvi modelljei egyre gyakrabban "hallucinálnak", azaz gyártanak hamis vagy pontatlan információkat. A New York Times beszámolója szerint az OpenAI belső vizsgálatai azt mutatják, hogy a GPT o3 és GPT o4-mini modellek lényegesen gyakrabban hibáznak, mint elődjük, a GPT o1.
Az OpenAI által végzett tesztek során az o3 modell az úgynevezett PersonQA vizsgálatban - amely közéleti szereplőkkel kapcsolatos kérdéseket vizsgált - az esetek 33%-ában szolgáltatott téves információt, szemben az o1 modell 15%-os arányával. Az újabb o4-mini még rosszabb eredményt ért el: ebben a tesztben 48%-os hibaarányt produkált. Egy másik vizsgálat, a SimpleQA - amely általános kérdéseket tartalmaz - még drámaibb eredményeket hozott: az o3 esetében 51%, az o4-mini esetében pedig megdöbbentő 79% volt a hallucinációs ráta.
Bár az OpenAI elismeri a problémát, szerintük további kutatás szükséges ahhoz, hogy megértsék, miért váltak ezek a modellek ennyire pontatlanná. Szakértők szerint a fő probléma a "reasoning" típusú - azaz érvelő vagy logikai gondolkodásra képes - modellek bevezetésében keresendő. Ezek a rendszerek nem egyszerűen szövegalkotást végeznek, hanem megpróbálnak emberi gondolatmenetet utánozni, lépésről lépésre haladva egy probléma megoldása felé. Az első ilyen modell, az o1, még kiváló eredményeket mutatott, akár doktori szintű feladatokat is képes volt megoldani matematikából és természettudományokból.
Az OpenAI ugyanakkor visszautasítja azt az állítást, hogy az érvelő modellek szükségszerűen hajlamosabbak lennének a hallucinációra. A vállalat egyik képviselője, Gaby Raila hangsúlyozta, hogy nem maga az érvelő struktúra okozza a problémát, hanem az új modellek fejlesztésének korai fázisaiban jelentkező mellékhatások. Mindazonáltal az egyre gyakoribb tévedések rávilágítanak arra, hogy a mesterséges intelligencia rendszerek megbízhatósága komoly kihívás. Ha ezek a modellek nem szorítják vissza a pontatlanságokat, használhatóságuk korlátozott marad - különösen azokban a helyzetekben, ahol a fő cél éppen az idő- és munka-megtakarítás lenne.