TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
  • Contatti
TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
TecnoAndroid
TecnoAndroid
  • TecnoAndroid – News e Recensioni Tech
  • Recensioni
  • Scienza e Tecnologia
  • Curiosità
  • Intelligenza Artificiale
  • News
  • Offerte
  • Operatori Telefonici
Copyright 2021 - All Right Reserved
Home Intelligenza Artificiale
News

Apple RubiCap: il metodo che batte i modelli AI più grandi

RubiCap è il nuovo metodo di Apple per addestrare modelli AI più piccoli ma capaci di descrivere le immagini meglio dei rivali più grandi.

scritto da Denis Dosi 28/03/2026 0 commenti 2 Minuti lettura
Apple RubiCap: il metodo che batte i modelli AI più grandi
Condividi FacebookTwitterLinkedinWhatsappTelegram
131

Il team di ricerca di Apple ha messo a punto un sistema piuttosto ingegnoso per migliorare il modo in cui i modelli di intelligenza artificiale descrivono le immagini. Si chiama RubiCap e, cosa non da poco, riesce a ottenere risultati migliori rispetto a modelli enormemente più grandi. Lo studio è stato condotto insieme all’Università del Wisconsin-Madison e potrebbe avere un impatto concreto sullo sviluppo delle prossime generazioni di AI multimodali.

Il cuore del problema è quello che viene definito dense image captioning, cioè la capacità di generare descrizioni dettagliate non dell’intera immagine in generale, ma delle singole regioni che la compongono. Invece di dire “una foto di un parco”, il sistema identifica ogni elemento presente nella scena e lo descrive con un livello di precisione molto più alto. Questo tipo di tecnologia ha applicazioni enormi: dall’addestramento di modelli che collegano testo e immagini, fino al miglioramento degli strumenti di accessibilità e della ricerca visiva.

TecnoAndroid · su Google

Seguici su Google e non perdere nulla

Aggiungi TecnoAndroid alle tue fonti preferite su Discover e segui il nostro profilo Google: le notizie tech più importanti arrivano direttamente sul tuo telefono.

Seguici su:DiscoverGoogleGoogle NewsTelegram

Il problema, però, è che i metodi usati finora per addestrare questi modelli hanno dei limiti evidenti. Le annotazioni fatte da esseri umani costano tantissimo e non scalano bene, mentre la generazione automatica di didascalie tramite modelli già esistenti tende a produrre risultati poco vari e con una generalizzazione debole.

Come funziona il framework RubiCap

Per aggirare questi ostacoli, i ricercatori di Apple hanno progettato un framework basato su un approccio decisamente più strutturato. Hanno selezionato casualmente 50.000 immagini da due dataset di addestramento, PixMoCap e DenseFusion 4V 100K. Per ciascuna immagine, il sistema ha generato diverse opzioni di didascalia utilizzando una serie di modelli già disponibili, tra cui Gemini 2.5 Pro, GPT 5, Qwen2.5 VL 72B Instruct, Gemma 3 27B IT e Qwen3 VL 30B A3B Instruct.

Nel frattempo, il modello in fase di addestramento con RubiCap produceva la propria didascalia per la stessa immagine. A quel punto entrava in gioco Gemini 2.5 Pro, che analizzava l’immagine insieme a tutte le didascalie generate, individuava i punti di accordo tra i vari modelli, evidenziava cosa era stato tralasciato o descritto male e trasformava tutto in criteri chiari per valutare la qualità delle descrizioni.

Poi Qwen2.5 7B Instruct faceva da giudice, assegnando punteggi rispetto a ciascun criterio per produrre il segnale di ricompensa usato nell’addestramento. Il risultato è un feedback molto più preciso e sfaccettato rispetto al classico schema con un’unica risposta considerata “corretta”.

Modelli più piccoli che battono quelli enormi

Da questo processo sono nati tre modelli: RubiCap 2B, RubiCap 3B e RubiCap 7B, rispettivamente con 2, 3 e 7 miliardi di parametri. E qui viene il bello: questi modelli hanno superato sistemi con fino a 72 miliardi di parametri su diversi benchmark.

Su CapArena, RubiCap ha ottenuto i tassi di vittoria più alti, battendo la distillazione supervisionata, i metodi di reinforcement learning precedenti, le annotazioni di esperti umani e gli output potenziati con GPT 4V. Su CaptionQA ha dimostrato un’efficienza delle parole superiore: il modello da 7B ha eguagliato Qwen2.5 VL 32B Instruct, mentre quello da 3B ha addirittura superato la sua controparte da 7B.

In una valutazione di ranking in cieco, RubiCap 7B ha ottenuto la proporzione più alta di primi posti tra tutti i modelli testati, compresi quelli da 72 e 32 miliardi di parametri, raggiungendo anche la penalità per allucinazioni più bassa e la migliore accuratezza complessiva.

Il dato forse più significativo è che il modello da 3 miliardi di parametri ha superato quello più grande su alcuni benchmark specifici, suggerendo che per il dense image captioning non serve necessariamente una scala massiva per ottenere risultati di alta qualità.

addestramentoapplecaptioningintelligenza artificialeRubiCap
Condividi FacebookTwitterLinkedinWhatsappTelegram
Denis Dosi
Denis Dosi

Laureato in ingegneria informatica nel lontano 2013, da sempre appassionato di scrittura e tecnologia sono riuscito a convogliare in un'unica professione le mie due più grandi passioni grazie a TecnoAndroid.

Articolo precedenti
Numbers station in farsi: le trasmissioni radio misteriose legate alla guerra in Iran
prossimo articolo
Meteorite su Houston: la NASA conferma l’impatto sul Texas

Lascia un commento Cancella Risposta

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Ultime news

  • Ansia e salute: chi si preoccupa di più si ammala meno

    17/05/2026
  • TikTok a pagamento: il test che potrebbe cambiare tutto

    17/05/2026
  • Subnautica 2 fa il botto: un milione di copie in meno di 24 ore

    17/05/2026
  • ChatGPT Plus gratis per un intero paese: l’accordo tra OpenAI e Malta

    17/05/2026
  • Hell Let Loose: Vietnam ha una data di uscita ufficiale: ecco quando arriva

    17/05/2026

2012 – 2026 Tecnoandroid.it – Gestito dalla STARGATE SRLS – P.Iva: 15525681001 Testata telematica quotidiana registrata al Tribunale di Roma CON DECRETO N° 225/2015, editore STARGATE SRLS. Tutti i marchi riportati appartengono ai legittimi proprietari.

Questo articolo potrebbe includere collegamenti affiliati: eventuali acquisti o ordini realizzati attraverso questi link contribuiranno a fornire una commissione al nostro sito.

  • Privacy e Cookie policy
  • FAQ, Disclaimer e Note legali
  • Contatti

🔥 Non perderti nemmeno un'offerta

Le migliori offerte
direttamente su di te

Smartphone, notebook, gadget tech al prezzo più basso.
Unisciti a migliaia di lettori di TecnoAndroid!

Unisciti su Telegram Gratis Seguici su WhatsApp Nuovo
oppure

Ricevi le offerte via email

Iscriviti alla newsletter per non perdere nessuna offerta!

Puoi disiscriverti in qualsiasi momento. Niente spam, solo offerte vere. 🎯

TecnoAndroid
  • Home