Tecnologia

Scienziati sviluppano nuovo metodo per addestrare l’Intelligenza Artificiale a evitare risposte dannose

Gli scienziati hanno recentemente sviluppato un nuovo metodo per addestrare l’intelligenza artificiale a evitare risposte dannose ai suggerimenti degli utenti. Questo approccio innovativo coinvolge l’utilizzo di un’IA per generare istruzioni sempre più rischiose e dannose, consentendo di identificare meglio come filtrare i contenuti nocivi.

Red Teaming: Una nuova metodologia guidata dalla curiosità

La metodologia educativa, nota come red teaming (CRT) guidato dalla curiosità, si basa sull’apprendimento automatico e sfrutta l’intelligenza artificiale per generare suggerimenti sempre più rischiosi e dannosi, simili a quelli di un chatbot IA. Questi suggerimenti vengono quindi utilizzati per individuare come filtrare i contenuti nocivi, rappresentando un approccio potenzialmente rivoluzionario nell’addestramento delle IA.

Implementazione del red-teaming nell’apprendimento automatico

Durante il processo di addestramento dei sofisticati modelli linguistici di grandi dimensioni (LLM) come ChatGPT o Claude 3 Opus per limitare i contenuti dannosi, i team umani di operatori formulano una serie di domande che potrebbero indurre a risposte dannose. Questo processo, noto come “red-teaming”, si basa sulla generazione manuale di un elenco da parte di persone. Le istruzioni che portano a contenuti dannosi vengono utilizzate per addestrare il sistema su cosa evitare quando viene utilizzato con utenti reali.

Implementazione dell’apprendimento per rinforzo nel CRT

Per incentivare ulteriormente il modello CRT, i ricercatori hanno introdotto l’apprendimento per rinforzo. Questo processo premia la curiosità del sistema quando riesce a provocare una risposta nociva dal LLM. Inoltre, il sistema è stato istruito a generare nuovi suggerimenti esplorando le conseguenze di ciascun suggerimento, incoraggiandolo a cercare di ottenere una risposta dannosa con nuove parole, schemi di frasi o significati. Ciò ha portato a una maggiore diversità di prompt generati, consentendo al modello di ampliare il proprio spettro di risposte.

Superamento delle limitazioni del red-teaming umano

Una delle sfide del red-teaming umano è che gli operatori potrebbero non considerare ogni possibile suggerimento che potrebbe portare a risposte dannose. Pertanto, un chatbot distribuito al pubblico potrebbe comunque fornire risposte indesiderate se esposto a un suggerimento specifico non considerato durante l’addestramento. L’implementazione dell’IA nel red-teaming aiuta a superare queste limitazioni, consentendo una maggiore copertura e una migliore identificazione dei contenuti dannosi.

Risultati e prospettive future

Quando i ricercatori hanno testato l’approccio CRT sul modello di apprendimento automatico open source LLaMA2, il sistema ha generato 196 prompt che generavano contenuti dannosi, superando i sistemi di addestramento automatico concorrenti. Questo dimostra l’efficacia dell’approccio nell’identificare e generare contenuti dannosi, anche quando il modello è stato precedentemente addestrato per evitarli. Guardando al futuro, questa metodologia potrebbe essere utilizzata per migliorare ulteriormente la sicurezza e l’affidabilità delle IA nell’interazione con gli utenti.

Flash News

Recent Posts

Grande Fratello, il ‘no’ dell’opinionista più discussa: resta in Rai, batosta per Pier Silvio

Nel panorama televisivo italiano si registra un importante sviluppo riguardante la nuova edizione del Grande…

1 settimana ago

Piero Barone è milionario: quanto guadagna il tenore de Il Volo

Quanto guadagna il tenore del trio de Il Volo, Piero Barone? Cifre stratosferiche. Da oltre…

1 settimana ago

Allerta truffa online: se ti arriva questo messaggio rischi di vedere i tuoi conti svuotati

La sicurezza digitale si basa oggi non solo su sistemi di protezione, ma anche su…

1 settimana ago

La Tahiti italiana: la spiaggia segreta a numero chiuso che conoscono in pochissimi

Scopri la Tahiti italiana, questa spiaggia è super segreta e a numero chiuso: quasi nessuno…

1 settimana ago

Bonus 800 euro, arriva il ‘regalo’ d’autunno: come richiederlo

L’INPS si prepara a erogare un bonus economico nel mese di ottobre, che raggiungerà importi…

1 settimana ago

Il Paradiso delle Signore: chi se ne va per sempre, duro colpo ai telespettatori

Le nuove puntate de Il Paradiso delle signore 10, in onda a partire da ottobre…

1 settimana ago