Hirdetés

Szerzői jogilag etikus AI-tanító adatbázist hozott létre egy cég



|

A megoldás feloldhatja a mesterséges intelligencia kapcsán felmerülő egyik legaggályosabb kérdést.

Hirdetés

Miközben világszerte egyre hevesebben folyik a vita arról, hogy az AI-fejlesztők jogosan használhatnak-e fel szerzői jog által védett online tartalmakat modelljeik tanítására, egy friss kutatás példát mutat egy alternatív, átláthatóbb - bár időigényesebb - útra. Több mint két tucat kutató, köztük az Eleuther AI nonprofit intézet szakemberei, nyolc terabájtnyi szöveges adathalmazt állítottak össze kizárólag közkincs vagy nyílt licenc alatt álló forrásokból. Az így tanított, 7 milliárd paraméteres nyelvi modelljük teljesítménye összevethető lett a Meta 2023-ban kiadott Llama 2-7B modelljével.

A kutatók csütörtökön publikált tanulmánya szerint a munka rendkívül időigényes és nehezen automatizálható volt. A feldolgozott szövegek gyakran nem voltak gépi olvasásra alkalmas formátumban, és a licencelési feltételek ellenőrzése is komoly emberi erőforrást igényelt.

"Nem lehet csak úgy felpörgetni a számítási kapacitást vagy futtatni egy okos webes adatgyűjtőt"

- fogalmazott Stella Biderman, az Eleuther AI igazgatója. A csapat minden automatikusan begyűjtött adatot kézzel ellenőrzött és annotált.

Hirdetés

Az eredmény ugyan nem vetekszik a legmodernebb, például az OpenAI vagy a Google által kínált modellek méretével, de így is komoly lépést jelent az etikus AI-fejlesztés felé. Az új adatbázis - a Common Pile v0.1 - több mint 130 000 angol nyelvű könyvet tartalmaz, köztük a Kongresszusi Könyvtár anyagát, és kétszer akkora, mint a korábban széles körben használt Project Gutenberg adatbázis. A modell, amelyet ezek alapján tanítottak, a Comma v0.1 nevet kapta - ezzel is jelezve, hogy ez még csak a kezdet, és várhatóan további nyílt forrású tartalmakat is felhasználnak majd tanítására.

A tanulmány ugyan nem foglal állást a fair use (tisztességes felhasználás) jogi kérdésében, de fontos adalékként szolgál a folyamatban lévő vitához. Az elmúlt hetek eseményei - például a Reddit perindítása az Anthropic ellen vagy a brit parlamenti törvénymódosítás - is rávilágítanak arra, milyen sürgető jogi és etikai kérdések övezik az AI-képzést. Az Eleuther AI kezdeményezése nemcsak alternatívát kínál, de új alapokra helyezheti a nyelvi modellek fejlesztésének jövőjét.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.