TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
  • Contatti
TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
TecnoAndroid
TecnoAndroid
  • TecnoAndroid – News e Recensioni Tech
  • Recensioni
  • Scienza e Tecnologia
  • Curiosità
  • Intelligenza Artificiale
  • News
  • Offerte
  • Operatori Telefonici
Copyright 2021 - All Right Reserved
Home Intelligenza Artificiale
News

Apple punta su Manzano, il modello AI per unire visione e generazione

scritto da Felice Galluccio 16/01/2026 0 commenti 1 Minuti lettura
Apple punta su Manzano, il modello AI per unire visione e generazione
Condividi FacebookTwitterLinkedinWhatsappTelegram
445

Nel campo dell’intelligenza artificiale multimodale, uno dei nodi più difficili da sciogliere resta l’equilibrio tra comprensione visiva e generazione di immagini. I sistemi attuali, nella maggior parte dei casi, sono costretti a privilegiare una delle due dimensioni, accettando compromessi strutturali. È su questo limite che si concentra Manzano, il nuovo modello descritto in uno studio firmato da un ampio gruppo di ricercatori di Apple.

Il limite strutturale dei modelli multimodali

TecnoAndroid · su Google

Seguici su Google e non perdere nulla

Aggiungi TecnoAndroid alle tue fonti preferite su Discover e segui il nostro profilo Google: le notizie tech più importanti arrivano direttamente sul tuo telefono.

Seguici su:DiscoverGoogleGoogle NewsTelegram

Secondo lo studio, la difficoltà nasce dalla tokenizzazione visiva, ovvero dal modo in cui un’immagine viene trasformata in informazioni elaborabili dal modello. I sistemi autoregressivi, usati per generare immagini passo dopo passo, lavorano meglio con token discreti. La comprensione, invece, beneficia di rappresentazioni continue, più ricche sul piano semantico.

Per aggirare il problema, molte architetture adottano due rappresentazioni separate: una continua per l’understanding e una quantizzata per la generazione. Questa soluzione, però, introduce un conflitto interno. Il modello linguistico deve gestire token molto diversi tra loro, legati sia a concetti astratti sia a dettagli spaziali di basso livello, con un impatto negativo su efficienza e qualità complessiva. Altri approcci, come le architetture a percorsi separati o l’uso di decoder esterni per la generazione, migliorano singoli aspetti ma rinunciano a una reale integrazione.

L’architettura alla base di Manzano

Manzano nasce per superare questi compromessi. L’idea chiave è una separazione funzionale più netta: il modello linguistico autoregressivo si occupa della previsione semantica, mentre la resa finale dei pixel è affidata a un decoder di diffusione.

Il sistema si fonda su tre elementi: un tokenizer visivo ibrido, capace di produrre sia rappresentazioni continue sia token discreti; un decoder LLM che accetta testo ed embedding visivi continui e predice token da un vocabolario condiviso; un decoder di immagini che ricostruisce i pixel. In questo modo, nessuna singola rappresentazione viene forzata a soddisfare esigenze incompatibili.

Prestazioni e flessibilità operativa

Nei test, Manzano gestisce anche prompt controintuitivi o fisicamente improbabili, mantenendo coerenza semantica e visiva. Le valutazioni su modelli che vanno da 300 milioni a 30 miliardi di parametri mostrano miglioramenti costanti con la scala, con le versioni più grandi competitive rispetto allo stato dell’arte sia nella comprensione sia nella generazione.

Il modello si distingue anche nelle attività di editing e trasformazione delle immagini, come modifiche guidate da istruzioni testuali, trasferimento di stile, inpainting, outpainting e stima della profondità. Un segnale che suggerisce un approccio più flessibile rispetto ai sistemi focalizzati esclusivamente sul text-to-image.

AIapple
Condividi FacebookTwitterLinkedinWhatsappTelegram
Felice Galluccio
Felice Galluccio

Appassionato di tecnologia ed elettronica in generale così come dello sport. Scrivere mi migliora la giornata, questo è il lavoro che amo! Never stop learning!

Articolo precedenti
Netflix apre ai video podcast: due format originali pronti al debutto
prossimo articolo
BMW iX4: ecco la nuova versione in design Neue Klasse

Lascia un commento Cancella Risposta

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Ultime news

  • Blades of Fire 2.0 è qui: le novità che cambiano tutto il gioco

    15/05/2026
  • L’AI: togliere la fatica di pensare non è sempre un bene

    15/05/2026
  • FromSoftware si espande: non solo videogiochi, arriva il cinema

    15/05/2026
  • Nailcrown: il boomer shooter dark fantasy che promette sangue e caos

    15/05/2026
  • Crimson Desert 1.07: nuovi boss, abilità inedite e molto altro

    15/05/2026

2012 – 2026 Tecnoandroid.it – Gestito dalla STARGATE SRLS – P.Iva: 15525681001 Testata telematica quotidiana registrata al Tribunale di Roma CON DECRETO N° 225/2015, editore STARGATE SRLS. Tutti i marchi riportati appartengono ai legittimi proprietari.

Questo articolo potrebbe includere collegamenti affiliati: eventuali acquisti o ordini realizzati attraverso questi link contribuiranno a fornire una commissione al nostro sito.

  • Privacy e Cookie policy
  • FAQ, Disclaimer e Note legali
  • Contatti

🔥 Non perderti nemmeno un'offerta

Le migliori offerte
direttamente su di te

Smartphone, notebook, gadget tech al prezzo più basso.
Unisciti a migliaia di lettori di TecnoAndroid!

Unisciti su Telegram Gratis Seguici su WhatsApp Nuovo
oppure

Ricevi le offerte via email

Iscriviti alla newsletter per non perdere nessuna offerta!

Puoi disiscriverti in qualsiasi momento. Niente spam, solo offerte vere. 🎯

TecnoAndroid
  • Home