A kínai DeepSeek új AI-modellje, az R1-0528 figyelemre méltóan jól teljesít a matematikai és kódolási teszteken, de egyre több szakértő szerint ez a bravúr nem teljesen saját erőből jött össze neki, és akkor még nagyon finoman fogalmaztunk. Egyes fejlesztők ugyanis arra gyanakodnak, hogy a DeepSeek modelljét részben a Google Gemini AI-családjának felhasználásával tanították be, ami súlyos kérdéseket vet fel az adatforrások és az etikus fejlesztés kapcsán. Sam Paech ausztrál fejlesztő, aki AI-érzelmi intelligencia értékelésekkel foglalkozik, úgy véli, hogy az R1-0528 szóhasználata és kifejezései kísértetiesen hasonlítanak a Gemini 2.5 Pro stílusára. Egy másik fejlesztő, a SpeechMap nevű szólásszabadság-értékelő eszköz alkotója szerint a DeepSeek-modell "gondolati nyomai" is nagyon hasonlítanak a Google AI által generált logikákhoz. A bizonyíték persze egyik esetben sem közvetlen, de egyre több ilyen részlet kerül napvilágra.
És messze nem ez az első eset, hogy a DeepSeek hasonló vádakkal néz szembe. Tavaly decemberben egy másik modelljük, a DeepSeek V3 gyakran azonosította magát ChatGPT-ként, amiből arra következtettek, hogy a képzési adatok között lehettek OpenAI-chatnaplók. A Financial Times korábban arról is beszámolt, hogy OpenAI szerint a DeepSeek distillációval (vagyis nagyobb modellek kimeneteiből történő tanítással) építkezhetett, és ehhez OpenAI-fejlesztői fiókokat is felhasználhatott, amelyeket Microsoft és az OpenAI később visszakövetett Kínához köthető tevékenységekhez.
Bár az ilyen distillációs módszerek nem szokatlanok az iparágban, az OpenAI kifejezetten tiltja modellkimenetek felhasználását versenytárs mesterséges intelligenciák fejlesztésére. A gond viszont ennél is komolyabb lehet: az internet, mint nyers tréningadat-forrás, mára tele van mesterséges tartalommal. Botok és tartalomfarmok árasztják el a Redditet és az X-et AI-generált szövegekkel, amelyek beszennyezik a teljes adatkörnyezetet, így nehéz elválasztani az eredeti emberi szövegeket a gépi utánzatoktól. Nathan Lambert, az AI2 nonprofit kutatóintézet munkatársa szerint egyáltalán nem elképzelhetetlen, hogy a DeepSeek tudatosan használta fel a Gemini API-kimeneteit. Szerinte, ha egy cégnek kevés GPU-ja, de sok pénze van, logikus lépés lehet ilyen adatokkal mesterséges tréningszettet generálni, még akkor is, ha etikailag kérdéses.
A nagy AI-cégek most próbálnak védekezni: az OpenAI április óta kötelező ID-verifikációt ír elő az API-használók számára, Kína nem szerepel a támogatott országok között. Eközben a Google és az Anthropic is elkezdte "összefoglalni" a modellek gondolati nyomait, hogy nehezebbé tegyék azok másolását és visszafejtését. A DeepSeek eddig nem kommentálta a vádakat, a Google-tól pedig még nem érkezett hivatalos válasz. Az ügy mindenesetre újabb példája annak, milyen éles a verseny a mesterséges intelligencia fejlesztésének piacán, és milyen könnyen elmosódhat a határ innováció és etikátlan utánzás között.