DeepSeek sospettata di copiare dati da Google Gemini

Un’altra bufera nel mondo delle intelligenze artificiali – e indovina chi c’è di nuovo al centro del ciclone? DeepSeek. Sì, proprio loro. Dopo essere già finiti nei guai qualche mese fa per presunto uso improprio di dati OpenAI, adesso tornano nell’occhio del ciclone per un’accusa simile. Stavolta, però, il dito è puntato contro un’altra superpotenza dell’AI: Google. Secondo alcuni ricercatori, DeepSeek avrebbe usato dati sintetici generati da Gemini, il modello di casa Google, per addestrare la sua nuova versione di R1, chiamata R1-0528. DeepSeek tra innovazione e plagio Ora, detta così sembra una spy story tecnologica – e un po’ lo è. L’aggiornamento R1-0528 ha ottenuto risultati impressionanti nei test di matematica e programmazione, tanto da far alzare più di un sopracciglio. È davvero tutto frutto del loro lavoro? O c'è lo zampino (digitale) di qualcun altro? A lanciare il sospetto è stato Sam Paech, uno sviluppatore australiano che analizza il comportamento emotivo delle AI. Secondo lui, il linguaggio usato da R1-0528 suona troppo simile a quello di Gemini 2.5 Pro per essere una coincidenza. Ma non è l’unico: anche chi lavora su progetti di tracciamento delle “catene di pensiero” nei modelli (tipo SpeechMap) ha notato somiglianze che sembrano più un copia-e-incolla che un caso fortuito. E qui la storia si complica. Perché, come fa notare Nathan Lambert (un ricercatore di AI2), la Cina non ha accesso libero ai chip avanzati di NVIDIA – quelli fondamentali per addestrare i modelli più grossi. Così le aziende cinesi, DeepSeek inclusa, si trovano costrette a essere creative: se non puoi usare tanta potenza, ti arrangi con i dati. E magari, aggiungendo un pizzico di distillazione (ovvero: far apprendere a un modello “studente” il comportamento di uno “maestro”), riesci a ottenere risultati di tutto rispetto... ma a quale prezzo? Il punto è che usare contenuti generati da altri modelli per addestrare i propri è una zona grigia. Non è illegale, ma può violare i termini d’uso. E con il web ormai invaso da testi e immagini prodotti da AI, capire cosa è “originale” e cosa è già stato frullato da un algoritmo sta diventando sempre più difficile. Insomma, la faccenda è tutt’altro che chiusa. E, nel frattempo, il confine tra innovazione e scorciatoia si fa sempre più sottile.

DeepSeek sospettata di copiare dati da Google Gemini

DeepSeek è accusata di usare dati sintetici di Google Gemini per addestrare la sua AI, sollevando dubbi su originalità e legalità.

DeepSeek tra innovazione e plagio