Immagina di chiacchierare con un’intelligenza artificiale e, dopo pochi minuti, ti rendi conto che stai parlando con qualcosa che non è umano, ma che sembra esserlo. È proprio quello che è successo recentemente in uno studio dell’Università della California a San Diego, dove i modelli linguistici avanzati GPT-4.5 di OpenAI e Llama-3.1-405B di Meta hanno superato il famoso Test di Turing in determinate condizioni.
GPT-4.5 e Llama-3.1 superano il Test di Turing
Ora, il Test di Turing, creato dal matematico Alan Turing negli anni ’50, è stato uno dei primi tentativi di misurare se una macchina potesse sembrare intelligente quanto un essere umano. Il trucco sta nel fatto che se una macchina può conversare con un essere umano senza che quest’ultimo se ne accorga, allora ha “superato” il test. Ma, come spesso accade, le cose non sono così semplici.
Lo studio ha messo alla prova questi modelli in chat di soli cinque minuti, e i risultati sono stati sorprendenti. GPT-4.5, con l’aiuto di un piccolo trucco – una “PERSONA” ben definita per farsi sembrare più umano – è riuscito a ingannare gli interrogatori nel 73% dei casi. Llama-3.1-405B, pur ottenendo un tasso inferiore, ha comunque superato il test nel 56%. Ma qui sorge una domanda interessante: questi modelli sono davvero intelligenti o stiamo solo diventando troppo facili da ingannare?
Nel caso di GPT-4.5, il risultato è stato molto più impressionante rispetto al modello che sta dietro ChatGPT, il GPT-4o, che ha ottenuto un misero 21% di successo con istruzioni minime. Questo ci fa riflettere su un punto fondamentale: la “PERSONA” gioca un ruolo cruciale in tutto ciò. A quanto pare, se questi modelli AI hanno una personalità credibile, il loro potenziale aumenta notevolmente. Ma questo significa che sono davvero intelligenti?
La verità è che, nonostante questi successi, i modelli come GPT-4.5 e Llama-3.1-405B non sono altro che algoritmi sofisticati che abbinano parole e frasi in modo che sembri che stiano pensando, ma non lo fanno davvero. Non hanno coscienza né comprensione profonda del mondo. Sono abili nel “parlare”, ma non nel “pensare”. E questo ci riporta a una domanda interessante: il Test di Turing è ancora un buon metro per misurare l’intelligenza artificiale?
In effetti, oggi ci sono nuove proposte per testare l’AI che vanno oltre le conversazioni brevi, come il Test di Lovelace, che valuta la creatività, o il Test di Marcus, che misura la comprensione di concetti complessi. Questi approcci potrebbero essere più adatti per capire davvero quanto queste macchine siano “intelligenti“. In fin dei conti, non basta saper parlare come un umano per essere considerati intelligenti, giusto?
