Gli scienziati hanno recentemente sviluppato un nuovo metodo per addestrare l’intelligenza artificiale a evitare risposte dannose ai suggerimenti degli utenti. Questo approccio innovativo coinvolge l’utilizzo di un’IA per generare istruzioni sempre più rischiose e dannose, consentendo di identificare meglio come filtrare i contenuti nocivi.
La metodologia educativa, nota come red teaming (CRT) guidato dalla curiosità, si basa sull’apprendimento automatico e sfrutta l’intelligenza artificiale per generare suggerimenti sempre più rischiosi e dannosi, simili a quelli di un chatbot IA. Questi suggerimenti vengono quindi utilizzati per individuare come filtrare i contenuti nocivi, rappresentando un approccio potenzialmente rivoluzionario nell’addestramento delle IA.
Durante il processo di addestramento dei sofisticati modelli linguistici di grandi dimensioni (LLM) come ChatGPT o Claude 3 Opus per limitare i contenuti dannosi, i team umani di operatori formulano una serie di domande che potrebbero indurre a risposte dannose. Questo processo, noto come “red-teaming”, si basa sulla generazione manuale di un elenco da parte di persone. Le istruzioni che portano a contenuti dannosi vengono utilizzate per addestrare il sistema su cosa evitare quando viene utilizzato con utenti reali.
Per incentivare ulteriormente il modello CRT, i ricercatori hanno introdotto l’apprendimento per rinforzo. Questo processo premia la curiosità del sistema quando riesce a provocare una risposta nociva dal LLM. Inoltre, il sistema è stato istruito a generare nuovi suggerimenti esplorando le conseguenze di ciascun suggerimento, incoraggiandolo a cercare di ottenere una risposta dannosa con nuove parole, schemi di frasi o significati. Ciò ha portato a una maggiore diversità di prompt generati, consentendo al modello di ampliare il proprio spettro di risposte.
Una delle sfide del red-teaming umano è che gli operatori potrebbero non considerare ogni possibile suggerimento che potrebbe portare a risposte dannose. Pertanto, un chatbot distribuito al pubblico potrebbe comunque fornire risposte indesiderate se esposto a un suggerimento specifico non considerato durante l’addestramento. L’implementazione dell’IA nel red-teaming aiuta a superare queste limitazioni, consentendo una maggiore copertura e una migliore identificazione dei contenuti dannosi.
Quando i ricercatori hanno testato l’approccio CRT sul modello di apprendimento automatico open source LLaMA2, il sistema ha generato 196 prompt che generavano contenuti dannosi, superando i sistemi di addestramento automatico concorrenti. Questo dimostra l’efficacia dell’approccio nell’identificare e generare contenuti dannosi, anche quando il modello è stato precedentemente addestrato per evitarli. Guardando al futuro, questa metodologia potrebbe essere utilizzata per migliorare ulteriormente la sicurezza e l’affidabilità delle IA nell’interazione con gli utenti.
Nel panorama televisivo italiano si registra un importante sviluppo riguardante la nuova edizione del Grande…
Quanto guadagna il tenore del trio de Il Volo, Piero Barone? Cifre stratosferiche. Da oltre…
La sicurezza digitale si basa oggi non solo su sistemi di protezione, ma anche su…
Scopri la Tahiti italiana, questa spiaggia è super segreta e a numero chiuso: quasi nessuno…
L’INPS si prepara a erogare un bonus economico nel mese di ottobre, che raggiungerà importi…
Le nuove puntate de Il Paradiso delle signore 10, in onda a partire da ottobre…