Assegnare un punteggio di QI all’intelligenza artificiale è una di quelle idee che sulla carta suonano affascinanti, ma che iniziano a scricchiolare appena si va un po’ più a fondo. Un nuovo sito chiamato AI IQ ha provato esattamente questo: raccogliere i risultati di 12 benchmark pubblici (tra cui ARC-AGI, FrontierMath e GPQA) e tradurli in un punteggio di QI stimato, distribuito su cinque dimensioni: astrazione, ragionamento matematico, programmazione, ragionamento critico e ragionamento agentivo. Il sito propone perfino un punteggio di intelligenza emotiva, ricavato da EQ-Bench 3. A maggio 2026, GPT-5.5 di OpenAI si piazza in cima alla classifica con un QI stimato di 136, seguito da Opus 4.7 di Anthropic a 132, poi Gemini 3.1 Pro di Google a 131 e GPT-5.4, sempre a 131. Su una scala separata, quella di TrackingAI basata sul test Mensa Norvegia, Grok-4.20 Expert Mode e GPT-5.4 Pro risultano appaiati a 145.
Il grafico forse più impressionante del sito è quello che mostra l’evoluzione nel tempo. A ottobre 2023, GPT-4-turbo registrava un QI stimato intorno a 75. Trenta mesi dopo, i modelli di punta sfiorano 136. Sessanta punti di progressione in due anni e mezzo: numeri che fanno effetto. Però la compressione ai vertici racconta qualcosa di diverso, perché i cinque migliori modelli sono separati da appena 7 punti (da 129 a 136 su AI IQ, da 141 a 145 su Mensa).
Perché il QI non misura davvero l’intelligenza di un modello IA
Il nodo vero non sta nei numeri, ma in quello che si pretende di misurare. Il ricercatore Alan D. Thompson, che dal 2021 lavora sulla valutazione cognitiva delle IA e ha documentato in modo dettagliato i limiti di questo tipo di esercizio, individua quattro problemi che il sito AI IQ non riesce a risolvere.
Prima questione: i test di QI sono stati progettati per la cognizione umana, e le loro scale diventano sfumate quando si applicano a un’intelligenza non umana. Poi c’è il tema della normalizzazione: questi test sono tarati su popolazioni umane medie, e l’interpretazione dei punteggi estremi (oltre 155 circa) diventa statisticamente poco affidabile, persino tra esseri umani. Terzo punto, e forse il più significativo: l’intelligenza artificiale funziona in modo fondamentalmente diverso da quella umana. Un modello può risolvere un problema di matematica avanzata e poi inciampare su una domanda di buon senso che un bambino di sei anni gestirebbe senza pensarci. Ultimo aspetto: AI IQ non somministra alcun test. Il sito si limita a compilare risultati di benchmark già esistenti e li converte in punteggi di QI attraverso un algoritmo proprietario. È un po’ come convertire chilometri in gradi Celsius: tecnicamente si può fare, ma il risultato non significa quello che l’unità di misura promette.
Il problema dei benchmark e dei limiti di scala
C’è anche una questione strutturale legata ai benchmark stessi. Ogni fornitore pubblica i propri risultati, spesso selezionando quelli che mettono in evidenza i punti di forza del proprio modello, creando una specie di torre di Babele dove nessuno misura la stessa cosa allo stesso modo. E i benchmark più impegnativi, come ARC-AGI-2, FrontierMath Tier 4 e Humanity’s Last Exam, iniziano già a saturare. Questo vuol dire che il tetto della misurazione si avvicina più rapidamente del tetto delle reali capacità dei modelli.
Classificare le IA sulla scala del QI umano ha il pregio di rendere i progressi comprensibili per il grande pubblico. Ma scambiare un punteggio derivato da benchmark per una misura reale di intelligenza equivale a confondere il termometro con la febbre.
