Un gruppo di ricerca di OpenAI sta lavorando per garantire il controllo dell’intelligenza artificiale sovrumana in modo che non possa ribellarsi contro l’umanità. I ricercatori sostengono che la superintelligenza artificiale potrebbe svilupparsi nel prossimo decennio e che, se non adeguatamente allineata ai valori umani, potrebbe causare gravi danni.
Il problema di coordinare i modelli di intelligenza artificiale ultrapotenti è ritenuto cruciale dal team di ricerca, che sottolinea l’importanza di garantirne la sicurezza. Tuttavia, le attuali tecniche di coordinamento, come il reinforcement learning da feedback umano, non sarebbero efficaci per modelli più intelligenti di loro.
OpenAI solleva delle preoccupazioni riguardo alla possibilità che i modelli avanzati di intelligenza artificiale possano generare codice complicato e pericoloso che risulterebbe difficile da comprendere anche per esperti umani. Chiedono come sia possibile che gli esseri umani possano supervisionare e controllare tali modelli più potenti quando essi stessi sono considerati deboli nel confronto.
Quale soluzione?
Il team di ricercatori ha sviluppato un metodo chiamato “trasposizione da debole a forte” che si basa sull’addestramento di grandi modelli di intelligenza artificiale con modelli più piccoli. Questo metodo permette di trasmettere i nostri valori alle intelligenze artificiali con maggiore precisione rispetto all’addestramento umano.
Utilizzando questo metodo, hanno addestrato un modello di intelligenza artificiale chiamato GPT-4 utilizzando GPT-2 come modello di partenza. I risultati ottenuti sono stati promettenti, anche se non definitivi, nel processo di addestramento di un’intelligenza artificiale sovrumana. Gli autori suggeriscono che oggi è possibile fare progressi empirici nell’allineamento dei modelli sovrumani.