Scienze / Ambiente

Nuovo algoritmo di Intelligenza Artificiale sta decifrando linguaggi indecifrabili

Secondo un nuovo rapporto del MIT, “la maggior parte delle lingue che sono esistite non sono più parlate”. Lo studio delle lingue perdute e “indecifrabili” diventa una sfida eccezionale, poiché esistono pochissimi documenti antichi per aiutare gli algoritmi e gli strumenti di traduzione automatica comuni come Google Translate. Poiché da nessuna parte si conosce abbastanza la grammatica, il vocabolario o la sintassi delle lingue antiche, molti testi rimangono indecifrabili. Senza questi, un intero corpo di conoscenze sulle persone che le hanno pronunciate è stato inaccessibile, fino ad ora afferma il team del MIT.

Seguire l’evoluzione delle lingue indecifrabili

Il team di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT ha recentemente creato un nuovo sistema informatico che ha la capacità di “decifrare automaticamente le lingue perse” senza la necessità di una conoscenza avanzata della loro relazione con altre lingue, tra cui pause, punteggiatura e inflessione. Inoltre, questo nuovo sistema è stato testato per la sua capacità di determinare automaticamente qualsiasi relazione tra gruppi linguistici, e in questi test è stato stabilito che la lingua iberica della Spagna non è correlata a Euskera.

In questo nuovo progetto, finanziato in parte dall’Intelligence Advanced Research Projects Activity (IARPA), la professoressa del MIT Regina Barzilay spiega in un nuovo articolo che il sistema “si basa su diversi principi basati sulla conoscenza da linguistica storica” perché le lingue si evolvono in termini prevedibili.

Spiega anche che le lingue raramente aggiungono o omettono suoni interi e che è probabile che si verifichino alcune sostituzioni di suoni, ad esempio, le parole con il suono “p” nella lingua principale possono sviluppare un suono “b” in lingue discendenti, ma a causa del significativo divario di pronuncia, è meno probabile che una “p” diventi una “k”.

Tradurre suoni nel vasto silenzio del cyberspazio

Mettendo insieme tutti i modelli linguistici conosciuti, il team di scienziati ha sviluppato un nuovo “algoritmo di decifrazione” progettato per elaborare e interpretare ciò che i ricercatori descrivono come “il vasto spazio delle possibili trasformazioni e la scarsità di un segnale guida nel iscrizione”.

Il nuovo algoritmo apprende automaticamente incorporando i suoni della lingua “in uno spazio multidimensionale dove le differenze di pronuncia si riflettono nella distanza tra i vettori corrispondenti”.

Ciò significa che il nuovo sistema, o algoritmo, consente ai ricercatori di isolare modelli linguistici che esprimono cambiamenti e li usa per formare nuovi vincoli e vincoli computazionali, e una volta che sono segmentati è possibile mappare le somiglianze di un linguaggio perso con le lingue correlate. Fondamentalmente, cerca un terreno comune nei suoni e suggerisce possibili collegamenti.

Programmazione di specchio fonetico vampirico

Fluttuando nel cyberspazio concettuale, il nuovo algoritmo agisce come uno “specchio fonetico del vampiro” nel senso che riflette qualsiasi struttura sonora che riconosce come simili ad altre, ma non offre alcun riflesso di suoni non correlati o scollegati, (da lì il vampiro).

Il sistema può anche identificare la vicinanza tra due lingue date e può determinare con precisione le “famiglie linguistiche”. Questo è il motivo per cui il team ha applicato il nuovo test (algoritmo) nelle lingue iberica e basca, “così come nei candidati meno probabili provenienti da famiglie romanze, germaniche, turche e uraliche”.

Mentre il basco e il latino sono risultati più vicini all’iberico rispetto ad altre lingue, erano ancora troppo diversi per essere considerati “correlati” e il team accademico è attualmente in disaccordo sulla lingua correlata effettiva. Alcuni studiosi affermano nel nuovo articolo che l’iberico “non è correlato a nessuna lingua conosciuta”.

I ricercatori del MIT sperano che la loro connessione di testi antichi con parole correlate in lingue conosciute, un processo noto come “decifrazione basata su affinità”, sia solo il primo passo nella creazione di un sistema super avanzato che sarà finalmente in grado di identificare il significato semantico di parole, anche se non è noto esattamente come queste antiche parole fossero originariamente pronunciate.

Fonti:

  • Today, we talk about language death [Link esterno]
  • Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [File PDF]
Flash News

Recent Posts

Grande Fratello, il ‘no’ dell’opinionista più discussa: resta in Rai, batosta per Pier Silvio

Nel panorama televisivo italiano si registra un importante sviluppo riguardante la nuova edizione del Grande…

1 settimana ago

Piero Barone è milionario: quanto guadagna il tenore de Il Volo

Quanto guadagna il tenore del trio de Il Volo, Piero Barone? Cifre stratosferiche. Da oltre…

1 settimana ago

Allerta truffa online: se ti arriva questo messaggio rischi di vedere i tuoi conti svuotati

La sicurezza digitale si basa oggi non solo su sistemi di protezione, ma anche su…

1 settimana ago

La Tahiti italiana: la spiaggia segreta a numero chiuso che conoscono in pochissimi

Scopri la Tahiti italiana, questa spiaggia è super segreta e a numero chiuso: quasi nessuno…

1 settimana ago

Bonus 800 euro, arriva il ‘regalo’ d’autunno: come richiederlo

L’INPS si prepara a erogare un bonus economico nel mese di ottobre, che raggiungerà importi…

2 settimane ago

Il Paradiso delle Signore: chi se ne va per sempre, duro colpo ai telespettatori

Le nuove puntate de Il Paradiso delle signore 10, in onda a partire da ottobre…

2 settimane ago