Il team di ricerca di Apple ha messo a punto un sistema piuttosto ingegnoso per migliorare il modo in cui i modelli di intelligenza artificiale descrivono le immagini. Si chiama RubiCap e, cosa non da poco, riesce a ottenere risultati migliori rispetto a modelli enormemente più grandi. Lo studio è stato condotto insieme all’Università del Wisconsin-Madison e potrebbe avere un impatto concreto sullo sviluppo delle prossime generazioni di AI multimodali.
Il cuore del problema è quello che viene definito dense image captioning, cioè la capacità di generare descrizioni dettagliate non dell’intera immagine in generale, ma delle singole regioni che la compongono. Invece di dire “una foto di un parco”, il sistema identifica ogni elemento presente nella scena e lo descrive con un livello di precisione molto più alto. Questo tipo di tecnologia ha applicazioni enormi: dall’addestramento di modelli che collegano testo e immagini, fino al miglioramento degli strumenti di accessibilità e della ricerca visiva.
Il problema, però, è che i metodi usati finora per addestrare questi modelli hanno dei limiti evidenti. Le annotazioni fatte da esseri umani costano tantissimo e non scalano bene, mentre la generazione automatica di didascalie tramite modelli già esistenti tende a produrre risultati poco vari e con una generalizzazione debole.
Come funziona il framework RubiCap
Per aggirare questi ostacoli, i ricercatori di Apple hanno progettato un framework basato su un approccio decisamente più strutturato. Hanno selezionato casualmente 50.000 immagini da due dataset di addestramento, PixMoCap e DenseFusion 4V 100K. Per ciascuna immagine, il sistema ha generato diverse opzioni di didascalia utilizzando una serie di modelli già disponibili, tra cui Gemini 2.5 Pro, GPT 5, Qwen2.5 VL 72B Instruct, Gemma 3 27B IT e Qwen3 VL 30B A3B Instruct.
Nel frattempo, il modello in fase di addestramento con RubiCap produceva la propria didascalia per la stessa immagine. A quel punto entrava in gioco Gemini 2.5 Pro, che analizzava l’immagine insieme a tutte le didascalie generate, individuava i punti di accordo tra i vari modelli, evidenziava cosa era stato tralasciato o descritto male e trasformava tutto in criteri chiari per valutare la qualità delle descrizioni.
Poi Qwen2.5 7B Instruct faceva da giudice, assegnando punteggi rispetto a ciascun criterio per produrre il segnale di ricompensa usato nell’addestramento. Il risultato è un feedback molto più preciso e sfaccettato rispetto al classico schema con un’unica risposta considerata “corretta”.
Modelli più piccoli che battono quelli enormi
Da questo processo sono nati tre modelli: RubiCap 2B, RubiCap 3B e RubiCap 7B, rispettivamente con 2, 3 e 7 miliardi di parametri. E qui viene il bello: questi modelli hanno superato sistemi con fino a 72 miliardi di parametri su diversi benchmark.
Su CapArena, RubiCap ha ottenuto i tassi di vittoria più alti, battendo la distillazione supervisionata, i metodi di reinforcement learning precedenti, le annotazioni di esperti umani e gli output potenziati con GPT 4V. Su CaptionQA ha dimostrato un’efficienza delle parole superiore: il modello da 7B ha eguagliato Qwen2.5 VL 32B Instruct, mentre quello da 3B ha addirittura superato la sua controparte da 7B.
In una valutazione di ranking in cieco, RubiCap 7B ha ottenuto la proporzione più alta di primi posti tra tutti i modelli testati, compresi quelli da 72 e 32 miliardi di parametri, raggiungendo anche la penalità per allucinazioni più bassa e la migliore accuratezza complessiva.
Il dato forse più significativo è che il modello da 3 miliardi di parametri ha superato quello più grande su alcuni benchmark specifici, suggerendo che per il dense image captioning non serve necessariamente una scala massiva per ottenere risultati di alta qualità.
