Az Apple kutatói az úgynevezett nagy érvelési modelleket (LRM) tesztelték kontrollált rejtvénykörnyezetekben, hogy kiderítsék, mennyire képesek ezek az AI rendszerek összetettebb problémák megoldására. Az eredmény vegyes: bár az LRM-ek felülmúlták a hagyományos nagy nyelvi modelleket (LLM) közepesen bonyolult feladatokban, a komplexitás növekedésével mindkettő teljesen megbukott. Az Apple csapata olyan speciális teszteket alkalmazott, mint a Hanoi tornya vagy a folyón való átkelés, ahol a probléma nehézségét pontosan tudták szabályozni. Nem csupán a végső megoldásokra fókuszáltak, hanem magát a gondolkodási folyamatot is elemezték, így vetették össze az LRM-eket a hagyományos LLM-ekkel azonos számítási feltételek mellett. Ez az összehasonlítás rávilágított az AI érvelés valódi korlátaira.
Kiderült, hogy az egyszerűbb feladatoknál a hagyományos LLM-ek (melyek nem használnak explicit érvelési mechanizmusokat) pontosabbak és hatékonyabbak voltak, kevesebb erőforrással. Viszont a közepesen bonyolult feladatoknál a strukturált gondolkodást alkalmazó modellek, például a Chain-of-Thought módszerrel, előnybe kerültek, és jobban teljesítettek. Ám a komplexitás tovább növelve, a teljesítmény mindkét modellcsoport esetében drámaian zuhant, és a pontosság nullára esett vissza, függetlenül attól, mennyi számítási kapacitás állt rendelkezésre.
Az elemzések során az is kiderült, hogy az érvelő modellek viselkedése nem mindig következetes: bár a nehézségi szint emelkedésével először hosszabb gondolatmenetekkel próbálkoztak, a kudarc határán váratlanul rövidítették az érvelést, mintha feladták volna a próbálkozást. Ráadásul akkor is, amikor helyes algoritmusokat kaptak, a modellek nem tudták megbízhatóan végrehajtani az egyes lépéseket, ami az AI logikai számítási képességeinek korlátaira mutat rá.
Érdekes módon a modellek teljesítménye nagymértékben függött attól, hogy a rejtvény mennyire volt ismerős vagy ritkább az eddigi tanulási adatok között, ami arra utal, hogy a siker gyakran nem az általánosítható érvelésen, hanem a tanult minták felismerésén alapult.
Az Apple kutatói tehát rávilágítottak, hogy bár az AI érvelési képességei fejlődnek, még messze vagyunk attól, hogy ezek a rendszerek valóban emberi gondolkodáshoz hasonló, általános és komplex problémamegoldást nyújtsanak. Ez egyben figyelmeztetés is arra, hogy a jelenlegi modellek, még a legfejlettebbek is, nem képesek áthidalni a valódi gondolkodás mélyebb dimenzióit.