generatori di immagini alimentati da intelligenza artificiale

I generatori di immagini alimentati dall’intelligenza artificiale (IA) popolari possono funzionare fino a 30 volte più velocemente grazie a una tecnica che condensa un intero processo di 100 fasi in un solo passo, mostra una nuova ricerca.

Un gruppo di scienziati ha sviluppato una tecnica chiamata “distillazione di corrispondenza di distribuzione” (DMD) che permette ai nuovi modelli di Intelligenza Artificiale di imitare i generatori di immagini consolidati, come DALL·E 3, Midjourney e Stable Diffusion. Questo approccio ha portato alla creazione di modelli di IA più leggeri e veloci, capaci di generare immagini di alta qualità in tempi ridotti.

La nuova tecnica DMD

Il processo di distillazione di corrispondenza di distribuzione si basa sull’addestramento dell’IA utilizzando immagini con didascalie descrittive e altri metadati, in modo che possa comprendere il contesto e il significato delle immagini per rispondere in maniera più accurata ai comandi di testo. Grazie a questo nuovo framework, i ricercatori sono riusciti a accelerare i modelli di diffusione esistenti, come Stable Diffusion e DALLE-3, fino a 30 volte, riducendo significativamente i tempi di calcolo senza compromettere la qualità delle immagini generate.

Generazione delle immagini

I modelli di diffusione generano immagini in diverse fasi, utilizzando un processo di “diffusione in avanti” e “diffusione inversa” per eliminare il rumore e produrre immagini chiare basate sui comandi di testo. Applicando il nuovo framework a un nuovo modello e riducendo i passaggi di “diffusione inversa” a uno, i ricercatori hanno ottenuto una significativa riduzione dei tempi di generazione delle immagini, rendendo il processo fino a 28,8 volte più veloce rispetto ai modelli precedenti.

foto incredibile

Questo lavoro è stato dettagliato in uno studio pubblicato su arXiv il 5 dicembre 2023 e rappresenta un importante passo avanti nel campo della generazione di immagini tramite IA.

Tecniche di ottimizzazione

Il DMD si compone di due elementi che collaborano per ridurre il numero di iterazioni richieste dal modello prima che possa produrre un’immagine utilizzabile. Il primo, chiamato “perdita di regressione”, organizza le immagini in base alla loro somiglianza durante il processo di addestramento, permettendo all’intelligenza artificiale di apprendere più velocemente.

Il secondo elemento è la “perdita di corrispondenza di distribuzione”, che garantisce che le probabilità di rappresentare oggetti come una mela con un morso corrispondano alla frequenza con cui si incontrano nell’ambiente

reale. Insieme, queste tecniche minimizzano l’aspetto fantasioso delle immagini generate dal nuovo modello di intelligenza artificiale.

Vantaggi del nuovo modello

Questo nuovo approccio rappresenta una svolta nel campo della generazione di immagini, poiché consente di ottenere risultati significativi in un solo passaggio anziché richiedere numerosi passaggi iterativi di affinamento. Ciò comporta un notevole risparmio di potenza di calcolo e una accelerazione del processo di generazione di immagini. Questo modello potrebbe essere estremamente vantaggioso in settori in cui la velocità e l’efficienza nella generazione di contenuti sono cruciali, portando a una produzione di materiale molto più rapida.