La società Deepseek ha annunciato Deepseek OCR, un modello di intelligenza artificiale multimodale open source progettato per migliorare la gestione e l’analisi di testi lunghi e strutturati. Il sistema introduce un metodo chiamato “mappatura ottica 2D”, che consente di comprimere documenti complessi riducendo il numero di token necessari durante l’elaborazione, ottimizzando così le risorse di calcolo.
Il modello, disponibile su GitHub e Hugging Face, si basa su due componenti principali: il DeepEncoder, che esegue la compressione dei contenuti, e il decoder DeepSeek3B-MoE-A570M, incaricato di ricostruire il testo in modo fedele e coerente. Grazie a questa struttura, Deepseek OCR riesce a ridurre da 7 fino a 20 volte i token impiegati per analizzare file ricchi di elementi complessi, come tabelle, diagrammi, formule matematiche o grafici tecnici.
Efficienza e precisione nei benchmark
I risultati sono stati eccezionali per quanto riguarda i primi test, con il 96% di accuratezza. Per quanto riguarda invece il livello di compressione, ecco un valore compreso tra 9x e 10x. Ciò significa tenere la qualità elevata anche quando ci si ritrova di fronte ad una compressione più acuta. Dal punto di vista computazionale poi c’è grande efficienza in quanto il modello riesce a generare più di 200.000 pagine di dati di training in un solo giornoutilizzando una sola GPU Nvidia A100 da 40 GB.
Applicazioni scientifiche e di archiviazione
Secondo Deepseek, il modello si è rivelato promettente in ambiti come la digitalizzazione di archivi storici e l’elaborazione di materiali di ricerca a lungo contesto, settori in cui l’efficienza e la capacità di comprimere grandi volumi di dati rappresentano un vantaggio strategico. Tra le sue competenze figurano la lettura di grafici e diagrammi, l’interpretazione di formule chimiche e notazioni scientifiche, la gestione di documenti multilingue e il riconoscimento di testo incorporato in immagini naturali.
Con questa soluzione, Deepseek intende affrontare una delle principali sfide dell’intelligenza artificiale moderna: l’elaborazione efficiente di testi estesi senza sacrificare accuratezza o contesto. L’uso della visione artificiale come strumento di compressione apre la strada a un nuovo modo di trattare l’informazione scritta, con un bilanciamento ottimale tra prestazioni e riduzione dei costi computazionali.
