Google ha annunciato pochi giorni fa che metterà in pausa alcune funzionalità del suo imager di intelligenza artificiale Gemini dopo le reazioni negative sulla sua rappresentazione della diversità etnica e di genere, ma la società ha diversi concorrenti, tra cui OpenAI, Microsoft e Adobe, in questo settore in rapida crescita.
Google ha presentato Gemini, il nome del suo assistente chatbot Bard, alla fine del 2023, un modello che l’azienda ha addestrato in diverse modalità, incluse immagini, voce e testo (la maggior parte dei concorrenti addestra modelli per generare o comprendere contenuti in diversi formati, come audio o immagini, separatamente) e ha lanciato un abbonamento a pagamento per migliori capacità a febbraio.
Meta ha lanciato a dicembre un generatore di immagini di intelligenza artificiale indipendente chiamato Imagine with Meta (basato sul modello Emu dell’azienda ed è gratuito), ampliando l’accesso alla strumento generativo che in precedenza era limitato ai chatbot all’interno delle applicazioni per Facebook, Instagram e WhatsApp.
OpenAI, l’azienda sostenuta da Microsoft e responsabile dei generatori di testo e video ChatGPT e Sora, ha lanciato l’anno scorso la terza generazione della loro piattaforma visiva DALL-E, integrando infine lo strumento di immagini con il loro chatbot di intelligenza artificiale per semplificare il processo di creazione del testo necessario per trasformare le idee degli utenti in realtà visiva.
Midjourney è stato uno strumento di immagini di intelligenza artificiale popolare fin dalla sua prima pubblicazione alla fine del 2022 (ha lanciato la versione 6 del modello Midjourney a dicembre, che offre dettagli migliorati e migliori risposte alle indicazioni) e, anche se è relativamente piccola, l’azienda rimane uno dei protagonisti più conosciuti nel settore.
Adobe ha un generatore di immagini di intelligenza artificiale “commercialmente sicuro”, Firefly, che le aziende possono utilizzare senza timore di reclami di copyright, poiché il modello è stato addestrato su immagini con licenza o con licenza aperta, un punto di forza unico nel panorama legale dell’intelligenza artificiale, altrimenti opaco.
Microsoft offre la generazione di immagini attraverso l’assistente di intelligenza artificiale Copilot, integrato nelle sue applicazioni di Office come Word, PowerPoint ed Excel, che utilizza il modello DALL-E 3 di OpenAI per generare contenuti.
Stability AI, leader da tempo nella generazione di immagini di intelligenza artificiale e un’alternativa più aperta alle soluzioni brevettate, ha lanciato una serie di modelli di generazione di immagini dal 2022 e ha presentato un’anteprima del suo Stable Diffusion 3 giovedì, anche se i dettagli sono scarsi e l’azienda non ha dato indicazioni su quando sarà lanciato (anche se c’è una lista d’attesa in cui le persone possono iscriversi).
Qual’è la preoccupazione per i generatori di immagini di intelligenza artificiale?
Diversità, autenticità e proprietà. Gli strumenti di intelligenza artificiale generativa vengono addestrati su vasti set di dati per produrre contenuti basati su indicazioni su ciò che è stato “appreso”.
Poiché il risultato di un modello riflette i dati con cui è stato addestrato, riflette anche i pregiudizi all’interno di quei dati, mostrando ripetutamente pregiudizi etnici e di genere nei propri prodotti, come cancellare identità indigene e non binarie, una tendenza a mostrare uomini di pelle chiara con lavori altamente pagati e prigionieri come neri.
Nel tentativo di contrastare ciò, molti modelli cercano attivamente di tenere conto e correggere questo pregiudizio per rappresentare meglio il mondo reale, anche se potrebbe risultare controproducente, come dimostra l’attuale polemica su Gemini, e creare un pregiudizio nella direzione opposta.
Poiché i contenuti diventano sempre più dettagliati e realistici, è sempre più difficile distinguere ciò che è reale da ciò che non lo è, generando timori che gli strumenti possano contribuire a creare deepfake, diffondere informazioni errate pericolose o materiale dannoso.
Questa è una preoccupazione chiave per le aziende che producono intelligenza artificiale generativa, specialmente in vista di elezioni accese negli Stati Uniti, e molte stanno lavorando su strumenti come filigrane che consentirebbero alle persone di distinguere il falso dal vero.
I dati che possono creare pregiudizi sono anche controversi in termini di proprietà (ad esempio, Meta utilizza immagini in pubblicazioni sui social media) e molti dei principali generatori di immagini e testo stanno affrontando importanti cause da parte di artisti e organizzazioni mediatiche che contestano i termini e il compenso per l’uso dei loro contenuti.
Queste cause non sono ancora state risolte (e è probabile che ce ne siano altre in futuro) e i risultati potrebbero giocare un ruolo importante nella configurazione del futuro panorama degli strumenti di intelligenza artificiale generativa.
Gemini di Google è stato ampiamente criticato per le sue immagini inesatte e prevenute quando gli è stato chiesto di mostrare alcuni scenari storici, e l’azienda non ha fornito una tabella di marcia su come “aggiusterà” il suo servizio per tenere conto del contesto storico o quando ripristinerà la capacità di generare immagini.