Apple ha annunciato Pico-Banana-400K, un ampio archivio gratuito di immagini progettato per migliorare l’addestramento dei sistemi di intelligenza artificiale dedicati all’editing fotografico. Il dataset, sviluppato dal team di ricerca dell’azienda, contiene circa 400.000 immagini reali e le rispettive versioni modificate, catalogate in base al tipo di intervento effettuato: variazioni cromatiche, modifiche agli oggetti, cambi di stile o aggiunta di testo. L’iniziativa è destinata esclusivamente alla ricerca non commerciale, quindi non potrà essere usata a fini di lucro o per progetti proprietari.
Il nome “Pico Banana” richiama esplicitamente Nano Banana, ovvero il modello Gemini 2.5 Flash Image di Google, attualmente considerato uno dei riferimenti nel campo della generazione e modifica delle immagini. Proprio da questa base di confronto nasce la volontà di Apple di contribuire al progresso collettivo dell’AI, colmando un vuoto nella disponibilità di dataset di editing ampi, di qualità e completamente condivisibili.
Come è nato Pico Banana
Per la creazione dell’archivio, i ricercatori di Cupertino hanno selezionato un set di fotografie reali provenienti dal dataset OpenImages, scegliendole per rappresentare in modo equilibrato persone, oggetti e scene testuali. Su queste immagini sono state applicate 35 tipologie di modifiche, suddivise in otto categorie principali. Gli esempi includono:
effetti pixel e fotometrici, come l’aggiunta di grana o filtri vintage;
modifiche incentrate sull’uomo, ad esempio trasformare un soggetto in una versione in stile Funko Pop;
interventi di composizione della scena, come la variazione delle condizioni meteo;
manipolazioni semantiche a livello di oggetto, che consentono di spostare elementi all’interno dell’immagine;
modifiche di scala, come l’ingrandimento dei soggetti.
Dalla collaborazione virtuale a un dataset open
Il processo di generazione è stato curioso: ogni immagine è stata caricata su Nano Banana insieme a un prompt testuale. Il risultato, una volta ottenuto, è stato sottoposto a Gemini 2.5 Pro, che ne ha valutato la qualità e la coerenza con le istruzioni ricevute, approvando o scartando i risultati non conformi.
Dalle iterazioni tra i modelli di Google e la supervisione del team Apple è nato Pico-Banana-400K, composto da modifiche singole (“single-turn”) e sequenze iterative (“multi-turn”), oltre a coppie di risultati riusciti e falliti, fondamentali per insegnare agli algoritmi a riconoscere errori visivi.
L’obiettivo dichiarato è rendere questo dataset una base di riferimento per l’addestramento e la valutazione dei futuri modelli di editing di immagini guidato dal testo, promuovendo un approccio aperto e collaborativo alla ricerca sull’intelligenza artificiale.



