Az OpenAI jelentős frissítést adott ki a ChatGPT képgeneráló rendszeréhez. Az új ChatGPT Images 2.0 a vállalat szerint alapvető szemléletváltást hoz, a korábbi gyors, inkább "találgató" képkészítés helyett a rendszer most már inkább tudatosan felépített vizuális válaszokat ad, amelyek jobban tükrözik a felhasználói utasítások mögötti szándékot. Sam Altman vezérigazgató egy bemutatón úgy fogalmazott, hogy ez a lépés olyan előrelépés, mintha egyszerre ugrana a rendszer a GPT-3 szintjéről a GPT-5-re.
A fejlesztés egyik leglátványosabb eredménye a szövegmegjelenítés pontossága. A korábban gyakran hibásan renderelt betűk, torzult feliratok és olvashatatlan elemek most sokkal megbízhatóbban jelennek meg. Emellett a rendszer jobban követi a strukturált utasításokat is, például ha egy adott elrendezést vagy elemek pontos elhelyezését kérjük. Az ismételt generálásoknál is stabilabb a vizuális konzisztencia, legyen szó karakterekről vagy stíluselemekről.
Az új rendszerben egy fontos változás a "gondolkodási" lépés bevezetése a képgenerálás előtt. A modell a végső kép elkészítése előtt elemzi a feladatot, részekre bontja azt, és tervet készít a megvalósításhoz. Ez lassíthatja a folyamatot, viszont pontosabb és kevesebb újragenerálást igénylő eredményeket adhat. Az OpenAI ezzel a fejlesztéssel közelebb kerülhet a Google Gemini multimodális rendszereihez, és a vállalatok közötti verseny a szöveg- és képalapú AI-megoldások terén tovább éleződhet.