Apple torna sotto i riflettori della ricerca accademica con una partecipazione corposa al CVPR, la conferenza internazionale dedicata alla computer vision e al riconoscimento dei pattern. L’azienda di Cupertino ha appena reso pubblici i dettagli del suo coinvolgimento all’edizione di quest’anno, che la vedrà non solo presente con i propri ricercatori ma anche nelle vesti di sponsor dell’evento. Un segnale chiaro di quanto Apple continui a investire sulla visione artificiale e sull’intelligenza artificiale applicata alle immagini.
Cosa porterà Apple al CVPR di giugno
L’appuntamento è fissato dal 3 al 7 giugno al Colorado Convention Center di Denver. Lì Apple parteciperà con presentazioni di vario tipo: poster, interventi orali, talk su invito, un keynote e una serie di eventi collaterali. Niente di simbolico, insomma, ma un contributo che attraversa più formati e tocca molti dei temi più caldi del momento nel campo della visione artificiale.
La lista degli studi che verranno presentati è piuttosto lunga e copre un ventaglio ampio di ricerche. Tra i lavori c’è AMUSE, un framework pensato per l’allineamento audio e video nella comprensione di più interlocutori, e AToken, descritto come un tokenizer unificato per la visione. Compaiono poi ricerche dedicate alla lingua dei segni, con un progetto che punta a migliorare le annotazioni grazie a modelli linguistici specifici, e DSO, un metodo per ridurre i bias nei sistemi.
Non mancano i benchmark, ormai centrali in questo tipo di studi. Ci sono lavori che misurano l’intelligenza spaziale e funzionale dei modelli multimodali, come quello che parte dal “dove si trovano le cose” per arrivare a “a cosa servono”, e SO-Bench, dedicato alla valutazione degli output strutturali. Sul fronte della generazione, invece, troviamo STARFlow-V per la modellazione video, UniGen-1.5 per il miglioramento della creazione e modifica di immagini, e Velox, focalizzato sulle rappresentazioni della geometria in quattro dimensioni.
Dataset, compressione e il ruolo dei ricercatori Apple
Tra i contributi più concreti c’è Pico-Banana-400K, un dataset su larga scala per la modifica delle immagini guidata dal testo. Sempre nel mucchio compaiono TrajTok, che lavora sui token di traiettoria per una migliore comprensione dei video, VSAS-Bench per la valutazione in tempo reale degli assistenti visivi, e uno studio dal titolo molto pratico su cosa conta davvero nella compressione delle immagini apprese dalle macchine.
Oltre alle ricerche, ci sarà spazio anche per gli interventi delle persone. Il ricercatore Colin Lea terrà un keynote al workshop dedicato all’intelligenza artificiale generativa per la lingua dei segni, il GenSign, a cui seguiranno altri tre talk su invito con ingegneri Apple, tutti concentrati tra il 3 e il 4 giugno.
L’azienda ha confermato anche la presenza di due ricercatrici, Hsin-Ping (Cindy) Huang e Maggie Xiao, che rappresenteranno Apple alla cena di mentorship Women in Computer Vision. Un dettaglio che dice qualcosa sul tipo di attenzione che la ricerca di Cupertino prova a riservare anche alla parte umana e formativa, non solo a quella strettamente tecnica.
Il programma completo della partecipazione di Apple al CVPR di quest’anno è disponibile nei canali ufficiali dedicati alla conferenza, con tutte le date e gli orari dei singoli interventi.