Nuovo algoritmo di Intelligenza Artificiale sta decifrando linguaggi indecifrabili.

Secondo un nuovo rapporto del MIT, “la maggior parte delle lingue che sono esistite non sono più parlate”. Lo studio delle lingue perdute e “indecifrabili” diventa una sfida eccezionale, poiché esistono pochissimi documenti antichi per aiutare gli algoritmi e gli strumenti di traduzione automatica comuni come Google Translate. Poiché da nessuna parte si conosce abbastanza la grammatica, il vocabolario o la sintassi delle lingue antiche, molti testi rimangono indecifrabili. Senza questi, un intero corpo di conoscenze sulle persone che le hanno pronunciate è stato inaccessibile, fino ad ora afferma il team del MIT.

Seguire l’evoluzione delle lingue indecifrabili

Il team di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT ha recentemente creato un nuovo sistema informatico che ha la capacità di “decifrare automaticamente le lingue perse” senza la necessità di una conoscenza avanzata della loro relazione con altre lingue, tra cui pause, punteggiatura e inflessione. Inoltre, questo nuovo sistema è stato testato per la sua capacità di determinare automaticamente qualsiasi relazione tra gruppi linguistici, e in questi test è stato stabilito che la lingua iberica della Spagna non è correlata a Euskera.

In questo nuovo progetto, finanziato in parte dall’Intelligence Advanced Research Projects Activity (IARPA), la professoressa del MIT Regina Barzilay spiega in un nuovo articolo che il sistema “si basa su diversi principi basati sulla conoscenza da linguistica storica” perché le lingue si evolvono in termini prevedibili.

Spiega anche che le lingue raramente aggiungono o omettono suoni interi e che è probabile che si verifichino alcune sostituzioni di suoni, ad esempio, le parole con il suono “p” nella lingua principale possono sviluppare un suono “b” in lingue discendenti, ma a causa del significativo divario di pronuncia, è meno probabile che una “p” diventi una “k”.

Tradurre suoni nel vasto silenzio del cyberspazio

Mettendo insieme tutti i modelli linguistici conosciuti, il team di scienziati ha sviluppato un nuovo “algoritmo di decifrazione” progettato per elaborare e interpretare ciò che i ricercatori descrivono come “il vasto spazio delle possibili trasformazioni e la scarsità di un segnale guida nel iscrizione”.

Il nuovo algoritmo apprende automaticamente incorporando i suoni della lingua “in uno spazio multidimensionale dove le differenze di pronuncia si riflettono nella distanza tra i vettori corrispondenti”.

Ciò significa che il nuovo sistema, o algoritmo, consente ai ricercatori di isolare modelli linguistici che esprimono cambiamenti e li usa per formare nuovi vincoli e vincoli computazionali, e una volta che sono segmentati è possibile mappare le somiglianze di un linguaggio perso con le lingue correlate. Fondamentalmente, cerca un terreno comune nei suoni e suggerisce possibili collegamenti.

Programmazione di specchio fonetico vampirico

Fluttuando nel cyberspazio concettuale, il nuovo algoritmo agisce come uno

specchio fonetico del vampiro” nel senso che riflette qualsiasi struttura sonora che riconosce come simili ad altre, ma non offre alcun riflesso di suoni non correlati o scollegati, (da lì il vampiro).

Frammento del Nuovo Testamento in lingua gotica estinta, del IV secolo dC [Fonte Wikipedia].

Il sistema può anche identificare la vicinanza tra due lingue date e può determinare con precisione le “famiglie linguistiche”. Questo è il motivo per cui il team ha applicato il nuovo test (algoritmo) nelle lingue iberica e basca, “così come nei candidati meno probabili provenienti da famiglie romanze, germaniche, turche e uraliche”.

Mentre il basco e il latino sono risultati più vicini all’iberico rispetto ad altre lingue, erano ancora troppo diversi per essere considerati “correlati” e il team accademico è attualmente in disaccordo sulla lingua correlata effettiva. Alcuni studiosi affermano nel nuovo articolo che l’iberico “non è correlato a nessuna lingua conosciuta”.

I ricercatori del MIT sperano che la loro connessione di testi antichi con parole correlate in lingue conosciute, un processo noto come “decifrazione basata su affinità”, sia solo il primo passo nella creazione di un sistema super avanzato che sarà finalmente in grado di identificare il significato semantico di parole, anche se non è noto esattamente come queste antiche parole fossero originariamente pronunciate.

Fonti:

  • Today, we talk about language death [Link esterno]
  • Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [File PDF]