Régen a lassú net miatt tömörítettél, ma azért, mert az MI-d "agyalása" túl sokba kerül a világnak (és neked is, ha előfizettél valamely szolgáltatásra). A bitekkel való spórolás nem technikai kényszer, hanem kőkemény pénzügyi túlélési stratégia a tokenalapú világban.
Ehhez viszont elsőként el kell felejtened mindent, amit a kilencvenes évek óta a tömörítésről tanultál. Akkoriban azért bűvészkedtünk az adatokkal, mert kevés volt a tárhely a sávszélességet pedig a betárcsázós modemeken is Kbit/s-ban mérték, nem gigabitben. Manapság a hálózati sávszélesség szuper, a tárhely is adott, viszont az, hogy az LLM el tudja készíteni az édi-bédi cicás videót, amiben te is szerepelsz, vagy megírja a házidat pár másodperc alatt, az túlságosan is sokba került. A tömörítés új célja ezúttal, hogy az AI ne "gondolja túl" a válaszait.
Az AI-korszakban minden egyes generált token kőkemény GPU-ciklusokat, memóriát és energiát emészt fel. Ezért a fejlesztők már nemcsak a fájlméretet faragják, hanem magát a kognitív folyamatot is. Megjelent a "prompt-tömörítés", ahol a felesleges kontextust és a terjengős utasításokat úgy nyírják meg, hogy csak a lényeg maradjon. Minél rövidebb a bemenet és a kimenet, annál kevesebb erőforrást kell feláldozni a feladat végrehajtásához, ami kőkemény forintokban mérhető.
A technológiai eszköztár is szintet lépett: például a kvantálás (quantization) vagy a metszés (pruning) a használatban lévő AI-rutinok alapjaihoz tartoznak. Ezekkel érhető el, hogy kevesebb NPU/GPU-erőforrást használjon egy-egy lekérdezés, csökkenjen az LLM-ek étvágya. A modern tömörítés tehát már nem a hálózatot hivatott tehermentesíteni, hanem az AI-szerver számítási feladatait.