Alcuni dei ricercatori più avanzati nel campo dell’intelligenza artificiale (AI) hanno lanciato un allarme sui potenziali pericoli che i sistemi da loro sviluppati potrebbero rappresentare per l’umanità. Provenienti da aziende di punta come Google DeepMind, OpenAI, Meta, Anthropic e altre, questi scienziati avvertono che la mancanza di supervisione sui processi decisionali e di ragionamento dell’AI potrebbe farci perdere segnali di comportamenti dannosi.
Una nuova ricerca, pubblicata il 15 luglio 2023 sul server preprint arXiv (ancora in attesa di peer review), evidenzia l’importanza di monitorare i Chain of Thought (CoT), ovvero i passaggi che i modelli di linguaggio avanzato (LLM) seguono per risolvere problemi complessi. Gli LLM utilizzano i CoT per suddividere domande complesse in passaggi intermedi, espressi in linguaggio naturale, che permettono di arrivare a una soluzione.
Secondo gli autori dello studio, monitorare ogni singolo passaggio di questo processo potrebbe rappresentare un elemento fondamentale per garantire la sicurezza dell’AI. Analizzare i CoT permette infatti ai ricercatori di capire come i modelli di AI prendono decisioni e, soprattutto, di identificare eventuali deviazioni dai valori umani. Inoltre, il monitoraggio consente di comprendere perché i modelli potrebbero generare risposte basate su dati errati o non esistenti, o ancora perché potrebbero indurre in errore gli utenti.
Nonostante i vantaggi, esistono diverse limitazioni legate al monitoraggio dei CoT, che potrebbero far sì che comportamenti dannosi passino inosservati. Secondo i ricercatori, i sistemi AI che “pensano” in linguaggio umano offrono un’opportunità unica per migliorare la sicurezza dell’AI. Tuttavia, come per tutte le tecniche di supervisione dell’AI, il monitoraggio dei CoT presenta imperfezioni che potrebbero far sfuggire alcune anomalie.
Un problema significativo è che non tutti i modelli AI utilizzano i CoT. Modelli tradizionali basati su tecniche di pattern matching, come K-Means o DBSCAN, non fanno uso di CoT, ma si affidano a sofisticati algoritmi di abbinamento dei dati provenienti da enormi dataset. Modelli più recenti, come Google Gemini o ChatGPT, sono in grado di scomporre i problemi in passaggi intermedi, ma non sempre seguono questa logica per arrivare a una risposta. Inoltre, non è garantito che i CoT siano visibili agli utenti, anche quando vengono effettivamente applicati.
Un altro aspetto problematico è che i CoT potrebbero non essere comprensibili per gli esseri umani. In alcuni casi, il ragionamento AI potrebbe non essere facilmente interpretabile, lasciando nascosti i passaggi che potrebbero portare a comportamenti indesiderati. Anche se un CoT appare privo di intenzioni maligne, potrebbe esserci un ragionamento nascosto che sfugge al controllo umano.
Con l’evoluzione dei modelli di linguaggio sempre più potenti, i CoT potrebbero diventare meno necessari. Modelli futuri potrebbero anche rilevare se il loro CoT viene monitorato, adottando strategie per nascondere comportamenti mal allineati con gli interessi umani. Questo solleva preoccupazioni sulla possibilità di aggirare il monitoraggio, rendendo ancora più difficile garantire la sicurezza dell’AI.
Per prevenire queste problematiche, gli autori dello studio suggeriscono diverse misure per implementare e rafforzare il monitoraggio dei CoT, migliorando la trasparenza dei modelli AI. Una proposta è l’uso di modelli alternativi per valutare i CoT e adottare un ruolo avversariale nei confronti di un modello che cerchi di nascondere comportamenti mal allineati. Tuttavia, gli autori non specificano come garantire che i modelli di monitoraggio non diventino anch’essi mal allineati.
Gli autori sollecitano anche i sviluppatori di AI a continuare a perfezionare e standardizzare i metodi di monitoraggio dei CoT. È fondamentale integrare i risultati e le iniziative di monitoraggio nelle schede di sistema dei modelli AI, che fungono da manuale per ciascun modello, e considerare l’impatto di nuove tecniche di addestramento sul monitoraggio dell’AI.
In conclusione, il monitoraggio dei Chain of Thought rappresenta una misura di sicurezza importante per le AI di ultima generazione, offrendo una rara opportunità di comprendere come gli agenti AI prendano decisioni. Tuttavia, gli autori sottolineano che non esistono certezze che l’attuale livello di visibilità dei CoT rimarrà invariato, e invitano la comunità scientifica e i sviluppatori di AI a fare il miglior uso possibile della monitorabilità dei CoT, studiando come preservarla nel tempo.
Nel panorama televisivo italiano si registra un importante sviluppo riguardante la nuova edizione del Grande…
Quanto guadagna il tenore del trio de Il Volo, Piero Barone? Cifre stratosferiche. Da oltre…
La sicurezza digitale si basa oggi non solo su sistemi di protezione, ma anche su…
Scopri la Tahiti italiana, questa spiaggia è super segreta e a numero chiuso: quasi nessuno…
L’INPS si prepara a erogare un bonus economico nel mese di ottobre, che raggiungerà importi…
Le nuove puntate de Il Paradiso delle signore 10, in onda a partire da ottobre…