Tra le principali intelligenze artificiali al momento c’è sicuramente anche DeepSeek, che ora sto pensando a delle novità che potrebbero migliorare le capacità di ragionamento dei grandi modelli linguistici anche detti LLM. L’obiettivo è quello di superare tutto ciò che già al momento risulta avanzato, migliorando sia la precisione che la rapidità nelle risposte.
Ricompensa generativa e ottimizzazione basata su principi
Il cuore del nuovo metodo è l’integrazione tra Generative Reward Modeling (GRM) e Principle-Based Critique Optimization, due elementi che permettono al modello di allinearsi meglio alle aspettative umane. In pratica, questa architettura consente ai modelli DeepSeek-GRM di ragionare in modo più coerente e utile, adattandosi al contesto e fornendo risposte più centrate.
I risultati, secondo i ricercatori, parlano chiaro: le prestazioni dei nuovi modelli sarebbero competitive con quelle ottenute attraverso le più solide tecniche di ricompensa pubblica, pur mantenendo un’elevata efficienza nei costi computazionali. Un traguardo importante, che spinge DeepSeek verso un ruolo sempre più centrale nel settore.
Verso un’intelligenza open source
Oltre all’aspetto tecnico, DeepSeek ha scelto di rendere open source questi modelli GRM, una decisione che sottolinea l’impegno per la condivisione trasparente e la collaborazione nella comunità scientifica. Al momento non è stata fornita una data per il rilascio, ma l’intenzione è quella di favorire un progresso più ampio nello sviluppo dell’IA.
In attesa del modello R2 e degli sviluppi futuri
Nel frattempo, cresce l’attesa per il lancio di DeepSeek-R2, successore del modello R1 che aveva già attirato l’attenzione internazionale per le sue capacità avanzate e l’elevata efficienza. Sebbene DeepSeek non abbia confermato ufficialmente la data di uscita, il fermento nella comunità tecnologica è evidente, alimentato anche da indiscrezioni circolate sui media asiatici.
Fondata nel 2023 da Liang Wenfeng, DeepSeek si muove con discrezione ma con grande determinazione, forte anche del supporto economico di High-Flyer Quant, l’hedge fund fondato dallo stesso Wenfeng. Proprio questa sinergia tra visione strategica e solidità finanziaria sembra alimentare una spinta costante all’innovazione.
Dalla native sparse attention alla condivisione del codice
A rafforzare l’immagine di un’azienda trasparente e orientata alla ricerca, a febbraio DeepSeek ha reso open source cinque dei suoi repository di codice, aprendo le porte a sviluppatori e ricercatori di tutto il mondo. Nello stesso periodo, Liang ha pubblicato uno studio sulla native sparse attention, una tecnica pensata per ottimizzare l’elaborazione di grandi volumi di dati mantenendo alte le prestazioni.
Con queste mosse, DeepSeek conferma la sua volontà di giocare un ruolo chiave nello sviluppo dei modelli linguistici del futuro, puntando su tecnologie innovative, apertura e concretezza. E nel mondo dell’AI, dove ogni passo avanti conta, non è certo poco.
