Miközben világszerte egyre hevesebben folyik a vita arról, hogy az AI-fejlesztők jogosan használhatnak-e fel szerzői jog által védett online tartalmakat modelljeik tanítására, egy friss kutatás példát mutat egy alternatív, átláthatóbb - bár időigényesebb - útra. Több mint két tucat kutató, köztük az Eleuther AI nonprofit intézet szakemberei, nyolc terabájtnyi szöveges adathalmazt állítottak össze kizárólag közkincs vagy nyílt licenc alatt álló forrásokból. Az így tanított, 7 milliárd paraméteres nyelvi modelljük teljesítménye összevethető lett a Meta 2023-ban kiadott Llama 2-7B modelljével.
A kutatók csütörtökön publikált tanulmánya szerint a munka rendkívül időigényes és nehezen automatizálható volt. A feldolgozott szövegek gyakran nem voltak gépi olvasásra alkalmas formátumban, és a licencelési feltételek ellenőrzése is komoly emberi erőforrást igényelt.
"Nem lehet csak úgy felpörgetni a számítási kapacitást vagy futtatni egy okos webes adatgyűjtőt"
- fogalmazott Stella Biderman, az Eleuther AI igazgatója. A csapat minden automatikusan begyűjtött adatot kézzel ellenőrzött és annotált.
Az eredmény ugyan nem vetekszik a legmodernebb, például az OpenAI vagy a Google által kínált modellek méretével, de így is komoly lépést jelent az etikus AI-fejlesztés felé. Az új adatbázis - a Common Pile v0.1 - több mint 130 000 angol nyelvű könyvet tartalmaz, köztük a Kongresszusi Könyvtár anyagát, és kétszer akkora, mint a korábban széles körben használt Project Gutenberg adatbázis. A modell, amelyet ezek alapján tanítottak, a Comma v0.1 nevet kapta - ezzel is jelezve, hogy ez még csak a kezdet, és várhatóan további nyílt forrású tartalmakat is felhasználnak majd tanítására.
A tanulmány ugyan nem foglal állást a fair use (tisztességes felhasználás) jogi kérdésében, de fontos adalékként szolgál a folyamatban lévő vitához. Az elmúlt hetek eseményei - például a Reddit perindítása az Anthropic ellen vagy a brit parlamenti törvénymódosítás - is rávilágítanak arra, milyen sürgető jogi és etikai kérdések övezik az AI-képzést. Az Eleuther AI kezdeményezése nemcsak alternatívát kínál, de új alapokra helyezheti a nyelvi modellek fejlesztésének jövőjét.