JUH2L4j

Gli scienziati hanno recentemente sviluppato un nuovo metodo per addestrare l’intelligenza artificiale a evitare risposte dannose ai suggerimenti degli utenti. Questo approccio innovativo coinvolge l’utilizzo di un’IA per generare istruzioni sempre più rischiose e dannose, consentendo di identificare meglio come filtrare i contenuti nocivi.

Red Teaming: Una nuova metodologia guidata dalla curiosità

La metodologia educativa, nota come red teaming (CRT) guidato dalla curiosità, si basa sull’apprendimento automatico e sfrutta l’intelligenza artificiale per generare suggerimenti sempre più rischiosi e dannosi, simili a quelli di un chatbot IA. Questi suggerimenti vengono quindi utilizzati per individuare come filtrare i contenuti nocivi, rappresentando un approccio potenzialmente rivoluzionario nell’addestramento delle IA.

Implementazione del red-teaming nell’apprendimento automatico

Durante il processo di addestramento dei sofisticati modelli linguistici di grandi dimensioni (LLM) come ChatGPT o Claude 3 Opus per limitare i contenuti dannosi, i team umani di operatori formulano una serie di domande che potrebbero indurre a risposte dannose. Questo processo, noto come “red-teaming”, si basa sulla generazione manuale di un elenco da parte di persone. Le istruzioni che portano a contenuti dannosi vengono utilizzate per addestrare il sistema su cosa evitare quando viene utilizzato con utenti reali.

JUH2sEb

Implementazione dell’apprendimento per rinforzo nel CRT

Per incentivare ulteriormente il modello CRT, i ricercatori hanno introdotto l’apprendimento per rinforzo. Questo processo premia la curiosità del sistema quando riesce a provocare una risposta nociva dal LLM. Inoltre, il sistema è stato istruito a generare nuovi suggerimenti esplorando le conseguenze di ciascun suggerimento, incoraggiandolo a cercare di ottenere una risposta dannosa con nuove parole, schemi di frasi o significati. Ciò ha portato a una maggiore diversità di prompt generati, consentendo al modello di ampliare il proprio spettro di risposte.

Superamento delle limitazioni del red-teaming umano

Una delle sfide del red-teaming umano è che gli operatori potrebbero non

considerare ogni possibile suggerimento che potrebbe portare a risposte dannose. Pertanto, un chatbot distribuito al pubblico potrebbe comunque fornire risposte indesiderate se esposto a un suggerimento specifico non considerato durante l’addestramento. L’implementazione dell’IA nel red-teaming aiuta a superare queste limitazioni, consentendo una maggiore copertura e una migliore identificazione dei contenuti dannosi.

Risultati e prospettive future

Quando i ricercatori hanno testato l’approccio CRT sul modello di apprendimento automatico open source LLaMA2, il sistema ha generato 196 prompt che generavano contenuti dannosi, superando i sistemi di addestramento automatico concorrenti. Questo dimostra l’efficacia dell’approccio nell’identificare e generare contenuti dannosi, anche quando il modello è stato precedentemente addestrato per evitarli. Guardando al futuro, questa metodologia potrebbe essere utilizzata per migliorare ulteriormente la sicurezza e l’affidabilità delle IA nell’interazione con gli utenti.