Hirdetés

Az Nvidia már azt is látja, hol futnak az AI-GPU-k a világban



|

Ahogy az AI-infrastruktúrák mérete és földrajzi kiterjedése robbanásszerűen nő, a teljes körű megfigyelhetőség lassan nem extra funkció, hanem alapelvárás lesz.

Hirdetés

Az Nvidia új megfigyelő és flottakezelő szoftvert mutatott be, amely minden eddiginél részletesebb képet ad arról, hol és hogyan működnek a vállalat mesterséges intelligenciára használt grafikus processzorai világszerte. A rendszer célja nem a beavatkozás, hanem a teljes átláthatóság megteremtése az egyre inkább szétszórt, globális AI-adatközpontok felett.

Az új platform egy ügyfél által telepített és kezelt ügynökre épül, amely minden egyes környezetből telemetriai adatokat gyűjt, majd ezeket az Nvidia NGC felhőjében futó központi irányítópultra továbbítja. Innen az üzemeltetők globális szinten láthatják az összes GPU állapotát, külön bontva az egyes adatközpontokat, felhős régiókat, végül egészen a szerverenkénti részletekig. A rendszer nemcsak teljesítmény- és fogyasztási adatokat mutat, hanem azt is, hogy az adott GPU fizikailag hol működik éppen.

Ez utóbbi funkció különösen érzékeny terület, hiszen elméletben alkalmas lehet arra, hogy visszatartsa az exportkorlátozás alá eső AI-chipek illegális továbbértékesítését vagy csempészetét. Az Nvidia azonban hangsúlyozza, hogy a szoftver kizárólag megfigyelésre szolgál, nincs benne semmilyen távoli letiltási vagy vezérlési lehetőség. A gyártó ugyan észlelheti, ha egy chip tiltott régióban bukkan fel, de technikai eszköze nincs arra, hogy működését megszakítsa.

A platform nyílt forráskódú, teljes mértékben auditálható, és az ügyfelek döntése, hogy egyáltalán használják-e. Emiatt szabályozási eszközként aligha lesz hatékony, az igazi jelentősége inkább üzemeltetési oldalról mutatkozik meg. A rendszer részletesen követi az energiafelhasználást, beleértve a rövid idejű terhelési csúcsokat is, ami segíthet az adatközpontoknak a fogyasztási keretek betartásában és a hatékonyság finomhangolásában.

Hirdetés

Emellett láthatóvá válik a GPU-kihasználtság, a memória-sávszélesség és a többcsomópontos klaszterek közötti összeköttetések állapota is. Ezek az adatok képesek felszínre hozni azokat az apró, de teljesítményt romboló problémákat, amelyek egy nagy AI-tanítás vagy inferencia során észrevétlenül rontják az eredményeket. A hőkezelés szintén központi szerepet kap, mivel a szoftver képes azonosítani a túlmelegedési gócpontokat és a nem megfelelő légáramlást, még azelőtt, hogy a hardver visszafogná magát vagy idő előtt elhasználódna.

Az Nvidia új megoldása nem váltja le a meglévő adatközponti eszközöket, hanem azok fölé épül. A lokális diagnosztikára továbbra is a DCGM szolgál, míg a Base Command a feladatok és munkafolyamatok szervezését végzi. Az új rendszer ezek közé ékelődik be, és először teszi lehetővé, hogy a teljes GPU-flotta egyetlen, globális képernyőn váljon áttekinthetővé.

Bár az opt-in jelleg miatt nem valószínű, hogy a szoftver komoly szerepet játszik majd az AI-chipek nemzetközi mozgásának ellenőrzésében, egyértelmű jelzés arra, merre tart az iparág. 

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.