Újabb szintet lépett a mesterséges intelligencia, legalábbis ezt állítja a Google DeepMind és az OpenAI is. Mindkét vállalat büszkén jelentette be, hogy AI-modelljeik aranyérmes teljesítményt nyújtottak az idei Nemzetközi Matematikai Diákolimpián. A világ egyik legnehezebb középiskolai matematikaversenyén 630 diák mérte össze tudását, közülük 67-en szereztek hivatalos aranyérmet. A két AI viszont - állításuk szerint - 35 pontot szerzett a 42-ből, ezzel technikailag ők is aranyat érdemeltek volna.
A történetben az a csavar, hogy a DeepMindot hivatalosan meghívták a versenyre, ahol ugyanazok a szigorú keretek vonatkoztak az AI-modelljére, mint az emberi versenyzőkre: két napon át, napi 4,5 órában dolgozott hat összetett feladaton, külső segítség nélkül. Az eredményhirdetés után, az IMO szabályainak megfelelően, blogbejegyzésben számoltak be Google szárnyai alá tartozó cég a sikeréről. Ezzel szemben az OpenAI nem volt hivatalos résztvevője az eseménynek. Az utóbbi egyszerűen letöltötte a nyilvánosan elérhető feladatokat, lefuttatta saját modelljén, majd még az előtt bejelentette "aranyérmes" teljesítményét, hogy a hivatalos eredmények egyáltalán megjelentek volna. Az IMO külön kérte a cégeket, hogy ne lopják el a show-t a diákok elől - az OpenAI ennek pont az ellenkezőjét tette.
Az eredmények azért figyelemreméltóak, mert a bravúrt nem valamilyen külön matekra kihegyezett modell hajtotta végre. Mindkét cég általános célú AI-t használt, és még így is sikerült a csúcsteljesítmény közelébe jutniuk. Ezek a modellek azonban nem elérhetők a nagyközönség számára. A publikus verziók - például a Gemini 2.5 Pro, a Grok-4 vagy az OpenAI o4 - kifejezetten gyengén teljesítettek ugyanazon a feladatsoron, legjobb esetben is csak 13 pontig jutottak, ami még a bronzérem küszöbétől is messze van.
Persze, lehet vitatkozni arról, hogy fair volt-e az OpenAI húzása (nyilvánvalóan nem), vagy hogy mennyire számít egy saját magának megítélt aranyérem (semennyire), de egy dolog biztos: a laborban fejlesztett AI-modellek látványosan fejlődnek a komplex gondolkodást igénylő feladatok terén, és csak idő kérdése, hogy ezek a képességek a felhasználók számára is elérhetők legyenek.