Fino a poco tempo fa, chiedere a un modello di intelligenza artificiale di generare il menù di un ristorante messicano significava ritrovarsi con piatti inesistenti tipo “enchuita”, “churiros” e “burrto”. Roba imbarazzante, diciamolo. Oggi, con ChatGPT Images 2.0, lo stesso tipo di richiesta produce un risultato che potrebbe essere appeso in una trattoria vera senza che nessuno alzi un sopracciglio. Il salto in avanti è concreto, e OpenAI lo definisce un vero e proprio “step change” rispetto a tutto ciò che esisteva prima.
Il nuovo modello è disponibile per tutti gli utenti di ChatGPT, compresi quelli con piano gratuito, e porta con sé miglioramenti profondi che non riguardano soltanto la qualità visiva. Per la prima volta, OpenAI ha integrato capacità di ragionamento (il cosiddetto Thinking) all’interno di un modello di generazione di immagini. Questo gli permette di fare cose che prima erano impensabili. Cercare informazioni sul web, produrre più varianti a partire da un singolo prompt, e perfino verificare i propri risultati prima di restituirli all’utente.
La questione di fondo è tecnica e ha radici profonde. I generatori di immagini AI hanno sempre avuto problemi col testo perché i modelli di diffusione ricostruiscono le immagini partendo dal rumore, e le scritte occupano una porzione talmente piccola dei pixel che il modello fatica ad apprenderle in modo corretto. Come spiegò Asmelash Teka Hadgu, fondatore di Lesan AI, il sistema impara i pattern che coprono la maggioranza dei pixel, relegando il testo in secondo piano. I ricercatori hanno esplorato strade alternative, come i modelli autoregressivi, che funzionano più come un modello linguistico e formulano previsioni su come debba apparire un’immagine. OpenAI, però, non ha voluto rivelare quale architettura stia alla base di ChatGPT Images 2.0, declinando la domanda durante il briefing con la stampa.
Il risultato pratico, quello sì, è sotto gli occhi di tutti. Il modello riesce ora a renderizzare testo piccolo, iconografie, elementi di interfaccia utente e composizioni dense con una fedeltà che le versioni precedenti non avrebbero nemmeno sfiorato. La risoluzione massima arriva fino a 2K, gli aspect ratio supportati vanno da 3:1 a 1:3, e in un unico passaggio si possono ottenere fino a otto output distinti dallo stesso prompt, mantenendo coerenza stilistica tra i vari risultati. Per chi lavora su storyboard, campagne di brand o serie di grafiche per i social media, questo risolve un flusso di lavoro che prima richiedeva di generare e assemblare immagini una alla volta.
Vale la pena ricordare che il modello non è arrivato del tutto a sorpresa. Nelle settimane precedenti al lancio ufficiale, ChatGPT Images 2.0 era già comparso su LM Arena AI. Ossia la piattaforma di test usata da OpenAI e altri grandi provider per raccogliere feedback preliminare, dove circolava con il nome in codice “duct tape”.
ChatGPT Images 2.0: testo, lingue e possibilità di utilizzo
Uno degli ambiti dove il nuovo modello mostra i progressi più evidenti è la gestione delle lingue non latine. OpenAI dichiara “guadagni significativi” nella capacità di comprendere e renderizzare testo in giapponese, coreano, cinese, hindi e bengali, accompagnati da una comprensione più profonda delle specificità visive di ciascuna lingua. Questo apre scenari reali come il game prototyping, lo storyboarding localizzato o la produzione di materiali grafici per mercati asiatici. Senza dover ricorrere a post produzione manuale per correggere il testo.
Il knowledge cutoff del modello è aggiornato a dicembre 2025, il che gli permette di gestire attività complete che vanno dalla scrittura creativa all’analisi fino alla composizione grafica, attingendo a un bagaglio di conoscenze relativamente recente. Ciò però significa anche che prompt basati su eventi o tendenze più recenti potrebbero produrre risultati meno accurati.
Nei test condotti prima del lancio pubblico, il modello ha dimostrato buona padronanza di stili grafici esigenti. Parliamo di cose come la pixel art dei giochi Pokémon per Game Boy Advance, oppure la generazione di una sequenza manga di 4 pagine con una narrazione visiva coerente. La creazione di immagini complesse richiede qualche minuto in più rispetto a una semplice risposta testuale, ma un fumetto a più pannelli resta nell’ordine di pochi minuti, il che lo rende pratico per chi ha necessità creative reali.
Esistono due versioni del modello, Instant e Thinking. La versione Thinking, quella più potente, è riservata agli abbonati ai piani a pagamento, che avranno accesso anche a output di qualità superiore. L’accesso base è comunque incluso in tutti i livelli, compreso quello gratuito. OpenAI ha inoltre reso disponibile il modello tramite API con il nome gpt-image-2, con prezzi variabili in base alla qualità e alla risoluzione richieste, e lo ha integrato nell’app Codex, che proprio la settimana precedente aveva ricevuto un aggiornamento con generazione di immagini integrata.
Il lancio avviene in un contesto competitivo sempre più affollato. Poche settimane fa Anthropic ha presentato il proprio assistente visivo Claude Design. Invece, già a febbraio 2026 Google aveva rilasciato Nano Banana 2 con funzionalità simili di testo integrato nelle immagini. OpenAI si muove quindi in un mercato in rapida evoluzione, dove la capacità di gestire testo complesso e composizioni precise sta diventando il nuovo terreno di confronto tra i grandi modelli visivi.
