IA in difficoltà con orologi e date, lo studio sorprende

L’intelligenza artificiale fatica con orologi analogici e date: nuova ricerca ne svela i limiti

Una nuova ricerca sull’intelligenza artificiale (IA) ha messo in luce una serie di compiti apparentemente semplici per gli esseri umani ma ancora ostici per i sistemi di AI avanzata: leggere l’orario su un orologio analogico e determinare il giorno della settimana di una data specifica.

L’intelligenza artificiale non sa leggere l’orologio (almeno non bene)

Nonostante i progressi sorprendenti raggiunti dalle reti neurali e dai modelli di linguaggio multimodali – capaci di generare immagini realistiche, scrivere testi in linguaggio naturale e risolvere esami con discreto successo – molti di questi sistemi falliscono sistematicamente in compiti di ragionamento spaziale e logico, come riconoscere correttamente l’orario da un’immagine di un orologio.

Secondo quanto presentato alla International Conference on Learning Representations (ICLR) 2025 e pubblicato in anteprima il 18 marzo sulla piattaforma arXiv (in attesa di revisione paritaria), modelli multimodali di grandi dimensioni (MLLMs) come LLaMA 3.2-Vision di Meta, Claude 3.5 Sonnet di Anthropic, Gemini 2.0 di Google e GPT-4o di OpenAI hanno mostrato un’accuratezza sorprendentemente bassa nel leggere orologi analogici.

AI e fallimenti nei compiti basilari: i risultati dello studio

Gli esperimenti hanno dimostrato che questi modelli sono stati in grado di identificare correttamente l’ora soltanto nel 38,7% dei casi. Per quanto riguarda i calendari e la determinazione del giorno della settimana, le prestazioni sono risultate ancora più deludenti: solo il 26,3% delle risposte era corretta.

Uno degli esempi riportati nello studio ha coinvolto la semplice domanda: “Che giorno della settimana sarà il 153° giorno dell’anno?” Anche in questo caso, gli errori sono stati frequenti, segnalando una lacuna notevole nella comprensione numerica e temporale dell’IA.

Ragionamento spaziale: un tallone d’Achille per i modelli AI

Secondo Rohit Saxena, autore principale dello studio e ricercatore presso l’Università di Edimburgo, queste carenze evidenziano come i modelli AI moderni siano ancora incapaci di affrontare compiti che per gli esseri umani risultano quasi automatici fin dall’infanzia.

“Leggere l’ora richiede ragionamento spaziale,” spiega Saxena. “Il modello deve rilevare le sovrapposizioni tra le lancette, calcolare gli angoli e interpretare design visivi diversi come numeri romani o quadranti stilizzati. Riconoscere che un oggetto è un orologio è semplice; leggerlo correttamente è un’altra cosa.”

Perché l’intelligenza artificiale sbaglia i calcoli?

Il fallimento dell’IA nel rispondere correttamente a domande relative ai giorni dell’anno è altrettanto preoccupante. Sebbene l’aritmetica sia una competenza fondamentale dei computer tradizionali, i modelli linguistici di grandi dimensioni (LLM) non eseguono calcoli in senso classico. Essi prevedono risultati basandosi su pattern appresi dai dati di addestramento, e non su regole matematiche fisse.

“L’aritmetica è banale per un computer tradizionale, ma non per i modelli linguistici basati sull’AI,” ha aggiunto Saxena. “La nostra ricerca dimostra il divario tra la previsione statistica e il ragionamento logico deterministico.”

L’IA e i problemi con dati rari: anni bisestili e calendari complessi

Un altro ostacolo è rappresentato dalla scarsa rappresentazione di fenomeni rari nei dataset di addestramento, come ad esempio gli anni bisestili o i calcoli su date poco comuni. Anche se la teoria degli anni bisestili è ben documentata nei dati a disposizione dell’IA, ciò non garantisce che i modelli siano in grado di utilizzarla correttamente in un contesto pratico.

“L’IA può sapere cos’è un anno bisestile, ma non è detto che riesca a collegare questa nozione a un compito concreto di calcolo del calendario,” ha spiegato Saxena.

Le implicazioni per il futuro dell’intelligenza artificiale

Questo studio evidenzia con forza la necessità di migliorare l’addestramento dei modelli IA, inserendo esempi più mirati e specifici per potenziare le loro capacità di ragionamento logico e spaziale. Inoltre, sottolinea come sia ancora prematuro affidarsi completamente all’intelligenza artificiale per applicazioni dove è richiesta precisione assoluta in ambito temporale, logistico o organizzativo.

“Quando un compito richiede la combinazione di percezione visiva e ragionamento preciso, è essenziale prevedere test rigorosi, logiche di riserva e, in molti casi, la supervisione umana,” ha concluso Saxena.

Conclusioni: AI potente ma non infallibile

Mentre l’intelligenza artificiale generativa continua a rivoluzionare settori interi – dalla creazione di contenuti alla medicina – è fondamentale ricordare che questi sistemi non sono perfetti. In particolare, la loro incapacità di affrontare compiti logici e spaziali di base rappresenta una sfida concreta per la loro integrazione in applicazioni del mondo reale.