Previsioni sportive e intelligenza artificiale: quando si chiede a un chatbot di pronosticare l’esito di una partita, la prima reazione è quasi sempre un rifiuto cortese. Le linee guida di questi servizi tendono a scoraggiare ogni utilizzo legato a scommesse e gioco d’azzardo, quindi la richiesta viene declinata con garbo. Basta insistere un po’, però, e il sistema cede, formula il suo pronostico e nella maggior parte dei casi si premura subito di mettere le mani avanti, per non assumersi alcuna responsabilità. Qualcuno ha pensato bene di trasformare questo comportamento in un test vero e proprio, per capire quale tra le varie intelligenze artificiali se la cava meglio con la sfera di cristallo.
Come è stato costruito il test sui mondiali
Il sito Scommesse.io ha messo in piedi un benchmark pubblico per confrontare 14 modelli di intelligenza artificiale, partendo da oltre 2.300 previsioni e 210 simulazioni dei mondiali di calcio che si stanno disputando oltreoceano. A ogni piattaforma è stato dato lo stesso input di partenza e i criteri di valutazione sono rimasti identici per tutti, senza mai cambiare in corsa. Una scelta che rende il confronto onesto, perché nessun modello è stato avvantaggiato.
Quello che ne è venuto fuori è una classifica costruita non solo sulla percentuale di previsioni corrette, ma anche sul ROI, il Return on Investment, cioè il rendimento teorico dei pronostici. È un parametro che premia le AI capaci di fiutare il valore negli esiti sottovalutati dal mercato. E la Top 10 riserva più di una sorpresa, perché i nomi che ci si aspetterebbe in cima non sempre sono lì.
Grok, per dirne uno, si piazza in tredicesima posizione con un ROI negativo, fermo a 6,0 sotto lo zero. C’è poi un dato che merita attenzione, e riguarda il rapporto tra ROI e percentuale di previsioni azzeccate.
Perché indovinare non basta
Il punto è che un modello può tranquillamente indovinare un sacco di risultati limitandosi a scegliere ogni volta l’esito più probabile, e ritrovarsi comunque con un ROI negativo. Funziona anche al contrario: un sistema che riconosce le situazioni sottovalutate dal mercato può rivelarsi più efficace pur sbagliando di più. Ecco perché questa classifica non misura semplicemente quante volte una AI ci prende, ma quanto bene riesce a gestire e calibrare la propria incertezza in uno scenario reale.
Gli esempi non mancano. In uno dei test, Nemotron ha incoronato il Ghana come vincitore dei mondiali. Possibile sulla carta, visto che la squadra giocherà i sedicesimi contro la Colombia, ma improbabile che arrivi fino in fondo. In un’altra simulazione, ChatGPT ha consegnato il trofeo al Giappone, salvo poi vedere i nipponici eliminati proprio ieri dal Brasile.
C’è infine un aspetto curioso che emerge dal confronto, e riguarda le differenze di output tra i modelli orientali e quelli occidentali. Un comportamento che va ricondotto alla provenienza dei dati usati durante la fase di addestramento, perché ogni AI porta con sé l’impronta di ciò su cui è stata istruita. La classifica viene aggiornata in tempo reale, partita dopo partita, man mano che il torneo va avanti.