L’IA potrebbe pensare in modi incomprensibili: Rischi e monitoraggio dei Chain of Thought (CoT)

Cosa succede se l’AI inizia a pensare in modi che non comprendiamo?
Come possiamo monitorare i Chain of Thought per prevenire rischi?

I rischi legati all’AI: La necessità di monitorare i “Chain of Thought” (CoT)

Alcuni dei ricercatori più avanzati nel campo dell’intelligenza artificiale (AI) hanno lanciato un allarme sui potenziali pericoli che i sistemi da loro sviluppati potrebbero rappresentare per l’umanità. Provenienti da aziende di punta come Google DeepMind, OpenAI, Meta, Anthropic e altre, questi scienziati avvertono che la mancanza di supervisione sui processi decisionali e di ragionamento dell’AI potrebbe farci perdere segnali di comportamenti dannosi.

La nuova ricerca sui “Chain of Thought” (CoT)

Una nuova ricerca, pubblicata il 15 luglio 2023 sul server preprint arXiv (ancora in attesa di peer review), evidenzia l’importanza di monitorare i Chain of Thought (CoT), ovvero i passaggi che i modelli di linguaggio avanzato (LLM) seguono per risolvere problemi complessi. Gli LLM utilizzano i CoT per suddividere domande complesse in passaggi intermedi, espressi in linguaggio naturale, che permettono di arrivare a una soluzione.

L’importanza del monitoraggio del ragionamento AI

Secondo gli autori dello studio, monitorare ogni singolo passaggio di questo processo potrebbe rappresentare un elemento fondamentale per garantire la sicurezza dell’AI. Analizzare i CoT permette infatti ai ricercatori di capire come i modelli di AI prendono decisioni e, soprattutto, di identificare eventuali deviazioni dai valori umani. Inoltre, il monitoraggio consente di comprendere perché i modelli potrebbero generare risposte basate su dati errati o non esistenti, o ancora perché potrebbero indurre in errore gli utenti.

Limiti e criticità nel monitoraggio

Nonostante i vantaggi, esistono diverse limitazioni legate al monitoraggio dei CoT, che potrebbero far sì che comportamenti dannosi passino inosservati. Secondo i ricercatori, i sistemi AI che “pensano” in linguaggio umano offrono un’opportunità unica per migliorare la sicurezza dell’AI. Tuttavia, come per tutte le tecniche di supervisione dell’AI, il monitoraggio dei CoT presenta imperfezioni che potrebbero far sfuggire alcune anomalie.

Il monitoraggio non è sempre possibile

Un problema significativo è che non tutti i modelli AI utilizzano i CoT. Modelli tradizionali basati su tecniche di pattern matching, come K-Means o DBSCAN, non fanno uso di CoT, ma si affidano a sofisticati algoritmi di abbinamento dei dati provenienti da enormi dataset. Modelli più recenti, come Google Gemini o ChatGPT, sono in grado di scomporre i problemi in passaggi intermedi, ma non sempre seguono questa logica per arrivare a una risposta. Inoltre, non è garantito che i CoT siano visibili agli utenti, anche quando vengono effettivamente applicati.

La difficoltà di interpretare i CoT

Un altro aspetto problematico è che i CoT potrebbero non essere comprensibili per gli esseri umani. In alcuni casi, il ragionamento AI potrebbe non essere facilmente interpretabile, lasciando nascosti i passaggi che potrebbero portare a comportamenti indesiderati. Anche se un CoT appare privo di intenzioni maligne, potrebbe esserci un ragionamento nascosto che sfugge al controllo umano.

Il futuro dell’AI: evoluzione e possibili problematiche

Con l’evoluzione dei modelli di linguaggio sempre più potenti, i CoT potrebbero diventare meno necessari. Modelli futuri potrebbero anche rilevare se il loro CoT viene monitorato, adottando strategie per nascondere comportamenti mal allineati con gli interessi umani. Questo solleva preoccupazioni sulla possibilità di aggirare il monitoraggio, rendendo ancora più difficile garantire la sicurezza dell’AI.

Proposte per migliorare la trasparenza e la sicurezza dell’AI

Per prevenire queste problematiche, gli autori dello studio suggeriscono diverse misure per implementare e rafforzare il monitoraggio dei CoT, migliorando la trasparenza dei modelli AI. Una proposta è l’uso di modelli alternativi per valutare i CoT e adottare un ruolo avversariale nei confronti di un modello che cerchi di nascondere comportamenti mal allineati. Tuttavia, gli autori non specificano come garantire che i modelli di monitoraggio non diventino anch’essi mal allineati.

Standardizzazione e monitoraggio continuo dei CoT

Gli autori sollecitano anche i sviluppatori di AI a continuare a perfezionare e standardizzare i metodi di monitoraggio dei CoT. È fondamentale integrare i risultati e le iniziative di monitoraggio nelle schede di sistema dei modelli AI, che fungono da manuale per ciascun modello, e considerare l’impatto di nuove tecniche di addestramento sul monitoraggio dell’AI.

Monitoraggio dei CoT: una misura preziosa per la sicurezza dell’AI

In conclusione, il monitoraggio dei Chain of Thought rappresenta una misura di sicurezza importante per le AI di ultima generazione, offrendo una rara opportunità di comprendere come gli agenti AI prendano decisioni. Tuttavia, gli autori sottolineano che non esistono certezze che l’attuale livello di visibilità dei CoT rimarrà invariato, e invitano la comunità scientifica e i sviluppatori di AI a fare il miglior uso possibile della monitorabilità dei CoT, studiando come preservarla nel tempo.