Nuovo strumento AI genera immagini in 2 secondi senza hardware costoso

Un nuovo strumento di intelligenza artificiale (AI) può generare immagini in meno di due secondi e non necessita di hardware costoso per funzionare.

Gli scienziati sudcoreani hanno utilizzato una tecnica speciale chiamata distillazione della conoscenza per comprimere le dimensioni di un modello di generazione di immagini open source (o disponibile al pubblico) noto come Stable Diffusion XL, che ha 2,56 miliardi di parametri o variabili che l’intelligenza artificiale utilizza per apprendere durante l’addestramento.

La versione più piccola del nuovo modello, conosciuta come “KOALA“, ha solo 700 milioni di parametri, il che significa che è abbastanza snella per funzionare velocemente e senza bisogno di hardware costoso e ad alto consumo energetico.

Il metodo utilizzato, la distillazione della conoscenza, trasferisce la conoscenza da un modello di grandi dimensioni a uno più piccolo, idealmente senza compromettere le prestazioni. Il vantaggio di un modello più piccolo è che occorre meno tempo per eseguire i calcoli e generare una risposta.

Lo strumento può essere eseguito su unità di elaborazione grafica (GPU) a basso costo e necessita di circa 8 GB di RAM per elaborare le richieste, rispetto ai modelli più grandi, che necessitano di GPU industriali di fascia alta.

Il team ha pubblicato i risultati in un documento il 7 dicembre 2023 sul database di prestampa arXiv. Hanno anche reso disponibile il loro lavoro tramite il repository AI open source Hugging Face.

L’Istituto di ricerca sull’elettronica e le telecomunicazioni (ETRI), l’istituzione dietro i nuovi modelli, ha creato cinque versioni, tra cui tre versioni del generatore di immagini “KOALA” – che genera immagini in base all’immissione di testo – e due versioni di “Ko-LLaVA” – che può rispondere a domande basate su testo con immagini o video.

Quando hanno testato KOALA, ha generato un’immagine basata sul messaggio “un’immagine di un astronauta che legge un libro sotto la luna su Marte” in 1,6 secondi. DALL·E 2 di OpenAI ha generato un’immagine basata sullo stesso prompt in 12,3 secondi e DALL·E 3 l’ha generata in 13,7 secondi, secondo una dichiarazione.

Gli scienziati ora intendono integrare la tecnologia che hanno sviluppato nei servizi esistenti di generazione di immagini, servizi educativi, produzione di contenuti e altre linee di business.