Hirdetés

Élethű, vagy egyformára gyúrt AI-slop? Az NVIDIA DLSS 5 működése, célja és aggasztó hibái



|

Mi történik, amikor a grafika már nem csak renderelt, hanem AI-generált? Az NVIDIA DLSS 5-tel a GPU-k szerepe gyökeresen átalakul, de tényleg erre a GPT-pillanatra vártunk a játékok világában (is)?

Hirdetés

A számítógépes grafika fejlődése az elmúlt negyedszázadban látványos technológiai ugrások sorozataként írható le. Ha visszamegyünk egészen 2001-ig, az akkoriban megjelent, programozható shaderekkel dolgozó GeForce 3 még csak az első lépést jelentette abba az irányba, ahol a GPU már nem fix funkciókat hajt végre, hanem rugalmasan alakítható számítási platformként működik. Ugrunk ismét egy nagyot, mert egyrészt az iparág és a játékos közösség is sokat várt tőle, másrészt egyre meghatározóbb a jelenléte a mai játékgrafikákban: a valós idejű sugárkövetés 2018-as megjelenése a fény viselkedésének fizikai alapú modellezésével új szintre emelte a vizuális realizmust - megjelenik a ray tracing.

Hirdetés

Talán nem túlzás azt állítani, hogy a következő fordulópont előtt állunk, és nem egyszerűen egy újabb technológiai mérföldkő, hanem egy szemléletváltás következhet. Az NVIDIA a márciusi GTC konferencián bemutatta a DLSS 5-öt, ami óriási vihart kavart, de most még csak annyit jegyezz meg, hogy - Jensen Huang megfogalmazásával élve - a grafika "GPT-pillanata" tárul a szemed elé. Ez az állítás egyáltalán nem túlzás: a Deep Learning Super Sampling ötödik generációja már nem a meglévő képi információk finomítására épít, hanem a képalkotás folyamatába avatkozik be.

A DLSS 5 ezzel kilép a klasszikus felskálázási technológiák keretei közül. A hagyományos, szabályalapú raszterizáció és a hibrid renderelési modellek mellé egy valós idejű neurális renderelési réteg társul, amely a jelenet szerkezetét és anyagait is figyelembe veszi. A cél már nem csupán a teljesítmény növelése, hanem a vizuális hűség olyan szintjének elérése, amely korábban leginkább a filmes utómunka során, hosszú renderidők mellett volt megvalósítható. Ezzel a valós idejű grafika közelebb kerül ahhoz a minőséghez, amelyet korábban szinte kizárólag ún. offline renderelési futószalagok biztosítottak.

Mit csinál valójában a DLSS 5?

Míg a DLSS korábbi generációi - a 2.0-s felbontás-felskálázástól a 3.0-s képkocka-generálásig - elsősorban a meglévő képi információk finomítására épültek, addig az ötödik generáció már közvetlenül a kép megalkotási folyamatába lép be. A mesterséges intelligencia itt olyan vizuális részletek előállításában is szerepet kap, amelyek hagyományos úton csak jóval nagyobb számítási igénnyel lennének megvalósíthatók.

A neurális renderelés működése ennek megfelelően gyökeresen eltér a megszokottól. A DLSS 5 egy mély neurális hálózatra épül, amely nem csak a kész 2D-s képkockákat elemzi, hanem a játékmotorból érkező alacsony szintű adatokat is felhasználja. Hozzáfér a mozgásvektorokhoz, a színpufferekhez és a jelenet szemantikai információihoz. Ez a szemantikai tudatosság teszi lehetővé, hogy az MI különbséget tegyen például bőr, haj, szövet vagy fém között, és mindegyikhez a fizikai valóságnak megfelelő viselkedést rendeljen.

Ha csak a képeket mutatták volna be mindenféle kontextus nélkül, vélhetően többen az állukat keresnék. Az Off-On marketing azonban most visszafele sült el
Ha csak a képeket mutatták volna be mindenféle kontextus nélkül, vélhetően többen az állukat keresnék. Az Off-On marketing azonban most visszafele sült el

A rendszer a renderelési folyamatot egyfajta "3D-tudatos promptként" kezeli. Az end-to-end módon betanított neurális hálózat képes értelmezni a komplex fényviszonyokat - legyen szó frontális, háttér- vagy szórt fényről -, és ezek alapján hitelesebb anyag- és fényreakciókat létrehozni. Ennek eredményeként olyan finom jelenségek is meggyőzőbben jelennek meg, mint a bőrfelszín alatti fényszóródás vagy a fal-, padló-, talajfelületek jellegzetes csillogása, miközben a jelenet szerkezete változatlan marad.

A DLSS evolúciója: rekonstrukciótól a generálásig

A DLSS fejlődési íve jól kirajzolódik az egyes generációk összevetéséből, mert minden új verzió nem egyszerűen egy továbbfejlesztett előd volt, hanem mindig egy új technológiai hangsúlyt is kijelölt. A DLSS 2.x idején az NVIDIA elsődleges célja még az volt, hogy a natív felbontásnál alacsonyabb belső renderelésből olyan végeredményt állítson elő, amely vizuálisan megközelíti vagy bizonyos esetekben akár meg is haladja a hagyományos natív megjelenítés minőségét. A CNN-alapú (Convolutional Neural Network) felskálázás lényegében a korábbi képkockák, a mozgásvektorok és a jelenet egyéb adatai alapján rekonstruálta a részleteket, miközben csökkentette a textúra töredezettséget és javította az élességet. Ebben a szakaszban a DLSS még alapvetően rekonstrukciós technológia volt: a cél nem új vizuális tartalom létrehozása, hanem a már meglévő információ intelligens újraépítése volt. Egyetérthetünk abban, hogy ez még tetszetősnek bizonyult a játékosok számára.

Az NVIDIA mindig ügyel rá, hogy egyértelmű fejlődést prezentáljon a technológiai evolúciós úton. Ez eddig kvázi jól sikerült, a DLSS 4 idejében alkalmazott újítások fontos előnyöket teremtettek
Az NVIDIA mindig ügyel rá, hogy egyértelmű fejlődést prezentáljon a technológiai evolúciós úton. Ez eddig kvázi jól sikerült, a DLSS 4 idejében alkalmazott újítások fontos előnyöket teremtettek

A 3.x generáció ennél jóval tovább ment, mert már nemcsak a kép minőségéhez, hanem közvetlenül a képkockaszámhoz is hozzányúlt. A képkocka-generálás bevezetésével a rendszer két hagyományosan renderelt frame közé mesterségesen létrehozott köztes képkockákat illesztett be. Ez a megközelítés látványos FPS-növekedést tett lehetővé, különösen akkor, amikor a GPU már a klasszikus renderelés határán működött. A DLSS 3 ezzel egy új, ám erősen vitatható fejezetet nyitott: a teljesítménynövelés többé nem kizárólag a gyorsabb hardver vagy az alacsonyabb részletesség kérdése lett, hanem a prediktív, MI-alapú képi kirajzolásé.

Ugyanakkor ez a szint új kompromisszumokat is hozott, hiszen a nagyobb folyamatosság mellé megjelent a késleltetés, a mozgási hibák és az interpolációból eredő képi anomáliák problémája is. Emlékszel még a gamer közösségen végifutó "fake frames" szólamokra? Az elmúlt egy évben csitultak ezek a negatív hangok, de továbbra is erősen megosztó a gyártó ezen elképzelése, módszertana.

Akár négyszeres képkockamegjelenítést tesz lehetővé, miközben a Reflex 2 segítségével a késleltetés csökkentését célozták meg. Egyre többen fogadják el ezt a működést, miközben a versenytársak is hasonló módszereket építenek
Akár négyszeres képkockamegjelenítést tesz lehetővé, miközben a Reflex 2 segítségével a késleltetés csökkentését célozták meg. Egyre többen fogadják el ezt a működést, miközben a versenytársak is hasonló módszereket építenek

A 4.x verzió egyfajta átmenetet jelentett a klasszikus rekonstrukciós és a valóban neurális grafikai megközelítés között. Az új transformer-alapú modellek alkalmazása azért számított jelentős előrelépésnek, mert ezek a hálózatok sokkal hatékonyabban tudták kezelni a képkockák közötti összefüggéseket, a finom részleteket és a komplex mozgásmintákat. Ennek köszönhetően a rendszer nemcsak lokális szinten vizsgálta a képi információt, hanem a teljes jelenet kontextusát is jobban értelmezte.

Ez különösen a képstabilitásban, a finom textúrák kezelésében és a gyors kameramozgások során mutatkozott meg. A DLSS 4 tehát már nem pusztán élesebb képet vagy magasabb képkockaszámot kínált, hanem azt a fajta vizuális egységességet is, amely elengedhetetlen ahhoz, hogy a generált és a hagyományosan renderelt tartalom közötti határ egyre kevésbé legyen észrevehető.

A DLSS 4.5-tel érkezett meg a dinamikus többszörös képkockagenerálás, ami nem egy fix szorzó alapján növeli a képkockasebességet, hanem intelligensen váltogatja generálás mértéjét a képminőség és késleltetés (válaszidő) optimuma mentén.
A DLSS 4.5-tel érkezett meg a dinamikus többszörös képkockagenerálás, ami nem egy fix szorzó alapján növeli a képkockasebességet, hanem intelligensen váltogatja generálás mértéjét a képminőség és késleltetés (válaszidő) optimuma mentén.

A DLSS 5 ehhez képest valóban minőségi (?) ugrást jelent, mert a fókusz immár nem a rekonstruáláson vagy az interpoláción van, hanem magán a renderelési folyamaton. A generatív neurális renderelés azt jelenti, hogy a rendszer már nem egyszerűen következtet a hiányzó pixelekre vagy köztes képkockákra, hanem a jelenet szemantikai és geometriai adataiból kiindulva aktívan létrehozza annak vizuális megjelenését. Ez különösen a világítás, az anyagreakciók, a finom felületi tulajdonságok és a fotorealisztikus részletek terén jelent radikális előrelépést.

Míg a korábbi DLSS-verziók a hagyományos grafikai futószalagra épültek, és annak eredményét javították vagy sűrítették, addig a DLSS 5 már magába a képalkotásba avatkozik be. Ennek következtében nemcsak gyorsabb vagy simább lehet a megjelenítés, hanem minőségileg is más karaktert kaphat: a fények lágyabbak, az anyagok meggyőzőbbek, a bőr, a szövet vagy a fém viselkedése pedig közelebb kerülhet a filmes látványvilághoz.

A működési elv viszonylag egyszerű, és amit a képen látsz, valós időben történik. Már csak az a gond, hogy ehhez egyelőre 2 db RTX 5090-es GPU szükséges
A működési elv viszonylag egyszerű, és amit a képen látsz, valós időben történik. Már csak az a gond, hogy ehhez egyelőre 2 db RTX 5090-es GPU szükséges

A DLSS generációinak fejlődése így világos irányt rajzol ki. A 2.x még az élesebb és tisztább képet célozta, a 3.x a teljesítményt és a mozgás folyamatosságát helyezte előtérbe, a 4.x a stabilitást és a jelenet mélyebb értelmezését erősítette, míg az 5.0 már azt mutatja, hogy a grafikai renderfolyamatban egyre nagyobb szerepet kapnak az MI-alapú, generatív eljárások.

Blackwell: a neurális grafika architektúrája

A technológiai ugrás mögött nem meglepő módon az RTX50-es GeForce-ok alapját jelentő Blackwell architektúra áll, amelyet már kifejezetten a neurális renderelés igényeihez szabtak. Míg a korábbi generációkban a grafikai és az MI-feladatok még részben elkülönültek egymástól, addig itt a kettő szorosan összekapcsolódik: a neurális hálók futtatása a renderelési folyam szerves részévé válik.

Ennek kulcseleme az ötödik generációs Tensor magok megjelenése, amelyek natív FP4 precizitást támogatnak. Ez a negyedpontosságú lebegőpontos formátum elsőre visszalépésnek tűnhet a klasszikus FP16 vagy FP32 megoldásokhoz képest, valójában azonban kritikus jelentőségű optimalizációról beszélhetünk. A neurális hálók jelentős része ugyanis képes ilyen alacsony precizitás mellett is stabilan működni, miközben az adatméret drasztikusan csökken. Ennek eredményeként nő az effektív memória-sávszélesség, csökken a késleltetés, és lehetővé válik, hogy jóval komplexebb modellek fussanak ugyanazon a hardveren.

Az architektúra képességei alapján megjósolható volt, hogy hova futhat ki a DLSS technológia. Más kérdés, hogy az RTX 50-es GPU-k neurális render képességeinek következő lépcsőfokát eléggé meggondolatlanul demonstrálták
Az architektúra képességei alapján megjósolható volt, hogy hova futhat ki a DLSS technológia. Más kérdés, hogy az RTX 50-es GPU-k neurális render képességeinek következő lépcsőfokát eléggé meggondolatlanul demonstrálták

Ez különösen fontos a valós idejű működés szempontjából. Egy 60 fps-es célérték esetén minden képkockára nagyjából 16 milliszekundum jut; ebbe az időkeretbe kell beleférnie nemcsak a geometriai feldolgozásnak és a sugárkövetésnek, hanem a neurális modell teljes kiértékelésének is. A Blackwell architektúra egyik legnagyobb erőssége, hogy ezt a párhuzamos terhelést képes hatékonyan kezelni, minimalizálva a futószalagon belüli adatmozgatási szűk keresztmetszeteket.

A negyedik generációs RT magok szintén jelentős előrelépést képviselnek, nemcsak nyers számítási teljesítményben, hanem architekturális szinten is. A kétszeres sugár-háromszög metszési sebesség mellett javult az ún. bounding volume hierarchy (BVH), avagy a jelenetek térbeli felépítését gyorsító hierarchikus struktúra kezelés hatékonysága is, ami kiemelt jelentőséget élvez a komplex jeleneteknél. Ez teszi lehetővé a "Mega Geometry" koncepciót, amely lényegében megszünteti a geometriai részletesség eddigi korlátait. A rendszer képes extrém mennyiségű, akár mikropoligon szintű geometriát kezelni anélkül, hogy a CPU-ra hárulna a jelenet felépítésének jelentős része.

Ez a szemléltmód különösen jól illeszkedik az olyan modern játékmotorokhoz, mint az Unreal Engine 5 Nanite rendszere, ahol a részletesség már nem LOD-szinteken, hanem gyakorlatilag folyamatos geometriai reprezentációval valósul meg. A Blackwell így nemcsak kiszolgálja ezeket a rendszereket, hanem lehetővé teszi azok további skálázását is.

A GeForce RTX 50 és a memória-architektúra átalakulása

Az RTX 50-es sorozat specifikációi jól tükrözik ezt a képalkotási irányt. Az RTX 5090 több mint 21 ezer CUDA magja, 32 GB GDDR7 memóriája és közel 1,8 TB/s sávszélessége nem pusztán a brutális nyers teljesítmény demonstrációja, hanem annak a következménye, hogy a neurális renderelés extrém adatmozgatási igénnyel jár. A GDDR7 memória magas, akár 30 Gb/s effektív órajele lehetővé teszi, hogy a GPU folyamatosan ellássa adatokkal a Tensor és RT magokat, elkerülve a klasszikus memória-szűk keresztmetszeteket. A kisebb modellek - RTX 5080, 5070 Ti, 5070 és 5060 Ti - szintén ebből az architekturális előnyből profitálnak, csak épp eltérő teljesítményszinteken.

A Blackwell egyik leginnovatívabb eleme ugyanakkor nem a nyers számítási teljesítményben, hanem az adatreprezentációban keresendő. Az RTX Neural Texture Compression (NTC) teljesen újragondolja a textúrák kezelésének módját. A hagyományos blokkalapú tömörítési eljárások statikus kompromisszumokra épülnek a minőség és a méret között, míg az NTC egy dinamikus, neurális reprezentációt használ. A textúrák nem pixelek halmazaként, hanem egy tanult modell paramétereiként kerülnek tárolásra.

Ez így jelentősen mérsékli a VRAM-terhelést, miközben a vizuális minőség nemcsak megmarad, hanem bizonyos esetekben még javulhat is, mivel a neurális modell képes a hiányzó részletek intelligens rekonstrukciójára. A Tensor magok szerepe itt is vitathatlan: a dekompresszió nem külön lépésként történik, hanem a renderelési folyamat részeként, valós időben.

A gyakorlati előnyök pedig egyértelműek. A kisebb memóriaigény nemcsak a magasabb textúra-beállítások használatát teszi lehetővé, hanem a streaming folyamatokat is felgyorsítja. A betöltési idők csökkennek, a stuttering (mikoakadozás) jelensége mérséklődik, és a rendszer kevésbé szorul rá a lassabb rendszermemóriára. Az, hogy 4K-felbontásnál a hagyományos ~725 MB-os VRAM-igény körülbelül 91 MB-ra csökkenthető, jól mutatja ennek a megközelítésnek a jelentőségét.

Kritika: AI slop és kontrollvesztés

A technológia ugyanakkor nem mentes a vitáktól, sőt, talán ez az első olyan generáció, ahol a kérdés már nem pusztán technikai, hanem esztétikai és filozófiai síkra is kiterjed. A neurális renderelés generatív jellege miatt egyre többen vetik fel, hogy a mesterséges intelligencia nemcsak kiegészíti, hanem potenciálisan felül is írhatja az eredeti művészi elképzeléseket. Ez különösen érzékeny pont egy olyan iparágban, ahol a vizuális stílus és az alkotói kontroll alapvető érték. Számtalan olyan játékot sorolhatnánk fel, aminek egyedi ábrázolásmódja a történetmesélés szerves része, minden apróbb képi finomítás a sztori kibontását zavarhatja meg.

Vajon az elsőkörös karaktervázlatokon hasonlót láthatott az art director? Nem biztos, és mivel a képi reprodukció ezen formája erősen függ a GPU-n végigfutó renderfolyamattól, jogosak az aggódó hangok
Vajon az elsőkörös karaktervázlatokon hasonlót láthatott az art director? Nem biztos, és mivel a képi reprodukció ezen formája erősen függ a GPU-n végigfutó renderfolyamattól, jogosak az aggódó hangok

Az úgynevezett "AI slop" jelenség ennek a félelemnek a látványos megnyilvánulása. A kritikusok szerint a neurális modellek hajlamosak a képet egyfajta statisztikai "átlaghoz" közelíteni. Kisimítják a zajt, egységesítik a felületeket, és gyakran eltüntetik azokat az apró tökéletlenségeket, amelyek valójában karaktert adnak egy jelenetnek. Ennek eredménye lehet egy vizuálisan tetszetős, de steril, "túloptimalizált" képvilág, amely elveszíti az egyedi stílusjegyek jelentős részét.

Ez a hatás különösen az emberi arcok esetében válik problematikussá. A bőr textúrájának túlzott simítása, a mikrokontrasztok eltűnése vagy az arcvonások finom elcsúszása könnyen az "uncanny valley" jelenséghez vezethet, amikor a látvány egyszerre tűnik realisztikusnak és mégis zavaróan mesterségesnek. A Resident Evil Requiem demójában például többen kifogásolták, hogy a karakterek arca "másként viselkedik" DLSS 5 mellett: a bőr tónusa, a fények eloszlása és az apró részletek olyan módon változtak meg, amely jelentősen eltért az eredeti művészi szándéktól.

Erős túlzás, de miért is ne? Mi is az arcokra fókuszálunk, pedig egyéb képi elemekre is adott példát az NVIDIA. Csak épp az van, hogy az ember vs. MI világban ez különösen érzékeny terület, és ezt nem mérték fel jól a bemutató előtt
Erős túlzás, de miért is ne? Mi is az arcokra fókuszálunk, pedig egyéb képi elemekre is adott példát az NVIDIA. Csak épp az van, hogy az ember vs. MI világban ez különösen érzékeny terület, és ezt nem mérték fel jól a bemutató előtt

A kritikák azonban nem állnak meg a karaktermodelleknél. Több fejlesztő arra is felhívta a figyelmet, hogy a neurális renderelés bizonyos esetekben kontextusfüggően "félreértelmezheti" a jelenetet. Például egy stilizált, nem fotorealisztikus játék esetében a modell hajlamos lehet "realistábbá" tenni a képet, ezzel gyengítve az eredeti vizuális irányt. Hasonló problémák merülhetnek fel komplex fényviszonyoknál vagy gyors kameramozgásnál is, ahol a neurális modell döntései nem mindig teljesen kiszámíthatók.

További aggodalom, hogy a neurális renderfolyamat részben "fekete dobozként" működik. Míg a hagyományos grafikai megoldásoknál a fejlesztők pontosan tudják, mi történik egy adott shader vagy renderelési lépés során, addig egy mély neurális háló döntései nem mindig magyarázhatók vagy reprodukálhatók egyértelműen. Ez nehezítheti a hibakeresést, a finomhangolást, sőt akár a minőségbiztosítást is.

Fejlesztői kontroll és iparági válaszok

Az NVIDIA álláspontja szerint ugyanakkor ezek a félelmek részben a technológia félreértéséből fakadnak. A DLSS 5 nem egy "mindent felülíró" automatikus rendszer, hanem egy precíziós eszköz, amelynek működése részletesen szabályozható. A fejlesztők képesek kontrollálni az alkalmazott neurális modell intenzitását, meghatározhatják, hogy a rendszer mely objektumokra vagy felületekre hasson, és maszkolási technikákkal akár teljesen ki is zárhatnak bizonyos elemeket a feldolgozásból.

Ez az a kontroll, amire leginkább szükség van, csak egyelőre kevesen hiszik el, hogy ténylegesen így is lesz. Az NVIDIA állítása szerint a neurális renderelés nem kötelező, mindenre kiterjedő rétegként jelenik meg, hanem modulárisan integrálható a renderelési futószalagba. Egyes stúdiók például csak a globális megvilágítás finomítására fogják használni, míg mások a karakterek bőrének vagy a környezeti fényeknek a javítására korlátozzák. Így a technológia nem helyettesíti a művészi döntéseket, hanem új eszközt ad azok megvalósításához.

Az előbbi magyarázatot egyébként több iparági szereplő is megerősítette. Todd Howard, a Starfield atyja például hangsúlyozta, hogy a neurális renderelés nem csökkenti, hanem kibővíti az alkotói szabadságot, mert olyan vizuális részletek és fényhatások válnak elérhetővé, amelyek korábban technikai korlátok miatt nem voltak megvalósíthatók. A hangsúly tehát azon van, hogy az MI ne helyettesítse, hanem erősítse az emberi kreativitást.

Mindazonáltal a vita várhatóan nem fog egyhamar lezárulni. A DLSS 5 és a neurális renderelés térnyerése egy új kérdést vet fel: hol húzódik a határ a számított és a generált kép között? És vajon a jövő játékainak vizuális világa inkább a fejlesztők, vagy inkább az algoritmusok döntéseinek eredménye lesz? Az biztos, hogy ez a technológiai irány nemcsak a grafikai minőséget emeli új szintre, hanem a valós idejű képmegjelenítésről alkotott elképzeléseket is átírja.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.