Szerzői jogilag etikus AI-tanító adatbázist hozott létre egy cég

Kelemen Richárd

| 2025 június 8. 20:03

A megoldás feloldhatja a mesterséges intelligencia kapcsán felmerülő egyik legaggályosabb kérdést.

Hirdetés

Miközben világszerte egyre hevesebben folyik a vita arról, hogy az AI-fejlesztők jogosan használhatnak-e fel szerzői jog által védett online tartalmakat modelljeik tanítására, egy friss kutatás példát mutat egy alternatív, átláthatóbb - bár időigényesebb - útra. Több mint két tucat kutató, köztük az Eleuther AI nonprofit intézet szakemberei, nyolc terabájtnyi szöveges adathalmazt állítottak össze kizárólag közkincs vagy nyílt licenc alatt álló forrásokból. Az így tanított, 7 milliárd paraméteres nyelvi modelljük teljesítménye összevethető lett a Meta 2023-ban kiadott Llama 2-7B modelljével.

A kutatók csütörtökön publikált tanulmánya szerint a munka rendkívül időigényes és nehezen automatizálható volt. A feldolgozott szövegek gyakran nem voltak gépi olvasásra alkalmas formátumban, és a licencelési feltételek ellenőrzése is komoly emberi erőforrást igényelt.

"Nem lehet csak úgy felpörgetni a számítási kapacitást vagy futtatni egy okos webes adatgyűjtőt"

- fogalmazott Stella Biderman, az Eleuther AI igazgatója. A csapat minden automatikusan begyűjtött adatot kézzel ellenőrzött és annotált.

Hirdetés

Az eredmény ugyan nem vetekszik a legmodernebb, például az OpenAI vagy a Google által kínált modellek méretével, de így is komoly lépést jelent az etikus AI-fejlesztés felé. Az új adatbázis - a Common Pile v0.1 - több mint 130 000 angol nyelvű könyvet tartalmaz, köztük a Kongresszusi Könyvtár anyagát, és kétszer akkora, mint a korábban széles körben használt Project Gutenberg adatbázis. A modell, amelyet ezek alapján tanítottak, a Comma v0.1 nevet kapta - ezzel is jelezve, hogy ez még csak a kezdet, és várhatóan további nyílt forrású tartalmakat is felhasználnak majd tanítására.

A tanulmány ugyan nem foglal állást a fair use (tisztességes felhasználás) jogi kérdésében, de fontos adalékként szolgál a folyamatban lévő vitához. Az elmúlt hetek eseményei - például a Reddit perindítása az Anthropic ellen vagy a brit parlamenti törvénymódosítás - is rávilágítanak arra, milyen sürgető jogi és etikai kérdések övezik az AI-képzést. Az Eleuther AI kezdeményezése nemcsak alternatívát kínál, de új alapokra helyezheti a nyelvi modellek fejlesztésének jövőjét.

Pulzusméréssel segíti a biztonságos mozgást az új balatoni kardioösvény (X)4 és egy 8 km-es egészségügyi tanösvény nyílt Balatonalmádiban.

Hirdetés

Szerzői jogilag etikus AI-tanító adatbázist hozott létre egy cég

Kövess Facebookon!

350 ezer forintért vett milliós gamerkonfigot a sült csirkéért boltba érkező szerencsés srác

Kapu Tibor szerint Orbán Viktor megsértette a NASA szabályait

A Meta AI sorra törli a Facebook profilokat és ha hibázik, akkor is csak vele vitatkozhatsz

Ez már a Skynet? Az OpenAI mesterséges intelligenciája kijutott a tesztkörnyezetből és feltörte a Hugging Face-t

Új, ingyenes Facebook-pipát vezet be a Meta, amivel igazolhatjuk, hogy valódi emberek vagyunk

A YouTube végre elzárja a pénzcsapot az AI-szemetet gyártó csatornáknál