A Google AI-ján tanulhatott a DeepSeek, csak egy kicsit átírta a háziját

Hajdú Gábor

| 2025 június 6. 10:19

A DeepSeek mesterséges intelligenciája gyanúsan hasonlít a Gemini modellre.

Hirdetés

A kínai DeepSeek új AI-modellje, az R1-0528 figyelemre méltóan jól teljesít a matematikai és kódolási teszteken, de egyre több szakértő szerint ez a bravúr nem teljesen saját erőből jött össze neki, és akkor még nagyon finoman fogalmaztunk. Egyes fejlesztők ugyanis arra gyanakodnak, hogy a DeepSeek modelljét részben a Google Gemini AI-családjának felhasználásával tanították be, ami súlyos kérdéseket vet fel az adatforrások és az etikus fejlesztés kapcsán. Sam Paech ausztrál fejlesztő, aki AI-érzelmi intelligencia értékelésekkel foglalkozik, úgy véli, hogy az R1-0528 szóhasználata és kifejezései kísértetiesen hasonlítanak a Gemini 2.5 Pro stílusára. Egy másik fejlesztő, a SpeechMap nevű szólásszabadság-értékelő eszköz alkotója szerint a DeepSeek-modell "gondolati nyomai" is nagyon hasonlítanak a Google AI által generált logikákhoz. A bizonyíték persze egyik esetben sem közvetlen, de egyre több ilyen részlet kerül napvilágra.

És messze nem ez az első eset, hogy a DeepSeek hasonló vádakkal néz szembe. Tavaly decemberben egy másik modelljük, a DeepSeek V3 gyakran azonosította magát ChatGPT-ként, amiből arra következtettek, hogy a képzési adatok között lehettek OpenAI-chatnaplók. A Financial Times korábban arról is beszámolt, hogy OpenAI szerint a DeepSeek distillációval (vagyis nagyobb modellek kimeneteiből történő tanítással) építkezhetett, és ehhez OpenAI-fejlesztői fiókokat is felhasználhatott, amelyeket Microsoft és az OpenAI később visszakövetett Kínához köthető tevékenységekhez.

Hirdetés

Bár az ilyen distillációs módszerek nem szokatlanok az iparágban, az OpenAI kifejezetten tiltja modellkimenetek felhasználását versenytárs mesterséges intelligenciák fejlesztésére. A gond viszont ennél is komolyabb lehet: az internet, mint nyers tréningadat-forrás, mára tele van mesterséges tartalommal. Botok és tartalomfarmok árasztják el a Redditet és az X-et AI-generált szövegekkel, amelyek beszennyezik a teljes adatkörnyezetet, így nehéz elválasztani az eredeti emberi szövegeket a gépi utánzatoktól. Nathan Lambert, az AI2 nonprofit kutatóintézet munkatársa szerint egyáltalán nem elképzelhetetlen, hogy a DeepSeek tudatosan használta fel a Gemini API-kimeneteit. Szerinte, ha egy cégnek kevés GPU-ja, de sok pénze van, logikus lépés lehet ilyen adatokkal mesterséges tréningszettet generálni, még akkor is, ha etikailag kérdéses.

A nagy AI-cégek most próbálnak védekezni: az OpenAI április óta kötelező ID-verifikációt ír elő az API-használók számára, Kína nem szerepel a támogatott országok között. Eközben a Google és az Anthropic is elkezdte "összefoglalni" a modellek gondolati nyomait, hogy nehezebbé tegyék azok másolását és visszafejtését. A DeepSeek eddig nem kommentálta a vádakat, a Google-tól pedig még nem érkezett hivatalos válasz. Az ügy mindenesetre újabb példája annak, milyen éles a verseny a mesterséges intelligencia fejlesztésének piacán, és milyen könnyen elmosódhat a határ innováció és etikátlan utánzás között.

Szerelem első kattintásra – ilyen az ideális gaming PC (X)Kiegyensúlyozott konfigok, erőtől duzzadó komponensek, 100% megbízhatóság és 0% csalódás. A KV PC-k ezt kínálják csavarozgatás és fejfájás helyett.

Hirdetés

A Google AI-ján tanulhatott a DeepSeek, csak egy kicsit átírta a háziját

Hirdetés

Windows 11 Pro fillérekért: olcsó frissítés a Windows 10 után

Kövess Facebookon!

Leállt az internet!

Az anális légzés lehet az orvostudomány következő nagy áttörése

Te is sorra kerülsz! Brutális sebességgel terjed a kivédhetetlen mobilos átverés

183 millió e-mail-fiók adatai kerültek napvilágra – ellenőrizd, te is érintett vagy-e

Ezúttal egy michigani nő nyert lottót a ChatGPT számaival

Így állítsd be az LG tévédet, ha a legtöbbet akarod kihozni a játékaidból!