UnsupNMT: Traducción Automática Neuronal no Supervisada: un nuevo paradigma basado solo en textos monolingües.

Deskribapen motza (eu): 
UnsupNMT: Itzulpen Automatiko Neuronal ez-gainbegiratua: testu elebakarretan oinarritutako paradigma berria

Itzulpen automatikoa teknologia heldua da eta pisu ekonomiko handia du, baina oraindik ere hobekuntza marjina handia du testu elebidun gutxi daudenean. Proiektu honek itzulpen automatikoa egiteko metodo guztiz berria proposatzen du: gainbegiratu gabeko itzulpena. Hau da, testu elebakarretan soilik oinarritua, baliabide elebidunik gabe. Metodoa hizkuntzen arteko hitz-errepresentazioak (cross-lingual word embeddings) eta sekuentzien ikaskuntza sakona erabiltzen ditu.

Proposamen berritzailea izateaz gain, itzulpen automatikoaren paradigma berri bat zabaltzen du beste diziplina batzuetako adarkatzeekin. Bi hizkuntzetako esaldiak kodifikatzaile bera erabiliz kodetzea planteatzen denez, horrek eragina du egungo hizkuntza-prozesadoreak entrenatzen diren eran, eta, beraz, hizkuntza natural eleaniztuna prozesatzeko eta hizkuntzaren industrietan eragina izateko modua erabat alda dezake.

Proiektuak itzulpenaren industria asaldatzeko ahalmena du. Egungo itzulpen automatikoak arazoak ditu testu elebidun gutxi dituzten hizkuntza bikoteak (alemana eta errusiera, adibidez), eta domeinuak (medikoa edo juridikoa, adibidez) itzultzeko. Proposatutako itzultzaile ez gainbegiratuari baliabide elebidunak gehitzerakoan itzulpen kalitatea hobetzen denez, proiektu honek kasu horietan gaur egun lortzen den itzulpen automatikoaren kalitatea hobetuko aukera emango du.

Deskribapen motza (en): 
UnsupNMT: Unsupervised Neuronal Machine Translation: a new paradigm based only on monolingual text
Deskribapena (en): 

Machine translation is a mature technology with great economic importance, which still has considerable room for improvement when few bilingual texts are available. This project proposes a radically different method of automatic translation: unsupervised translation, i.e. based exclusively on monolingual texts without any bilingual resources. The method is based on deep learning of sequences and the latest advances in cross-lingual word embeddings.

In addition to being a highly innovative proposal, it opens up a new paradigm of automatic translation with ramifications in other disciplines. Since we propose to represent phrases from two languages using the same coder, this has implications for the way current linguistic processors are trained, which can entirely change the way natural multilingual language processing is done and impact the language industries.

The project has the potential to disrupt the translation industry. Current machine translation has problems translating language pairs with little contact (e.g. German and Russian), and specific domains with few bilingual texts (e.g. medical or legal). Since the proposed unsupervised translation system is further enhanced with bilingual resources, this project will improve the quality of automatic translation in such cases, with a real impact on the translation industry.

Deskribapen motza (es): 
UnsupNMT: Traducción Automática Neuronal no Supervisada: un nuevo paradigma basado solo en textos monolingües
Deskribapena (es): 

La traducción automática es una tecnología madura y de gran importancia económica, que todavía tiene un considerable margen de mejora cuando se dispone de pocos textos bilingües. Este proyecto propone un método radicalmente diferente de traducción automática: la traducción no supervisada, es decir, basada exclusivamente en textos monolingües sin recursos bilingües. El método se basa en aprendizaje profundo de secuencias y en los últimos avances embeddings crosslingues de palabras.

Además de ser una propuesta altamente innovadora, abre un nuevo paradigma de traducción automática con ramificaciones en otras disciplinas. Puesto que proponemos representar frases de dos idiomas utilizando el mismo codificador. Esto tiene implicaciones en la forma en que se entrenan los procesadores lingüísticos actuales, lo que puede cambiar por completo el procesamiento multilingüe del lenguaje natural e impactar en las industrias del lenguaje.

La traducción automática actual tiene problemas para traducir pares de idiomas con poco contacto (por ejemplo, alemán y ruso), y dominios específicos con pocos textos bilingües (por ejemplo, médicos o jurídicos). Dado que el sistema de traducción no supervisada propuesto se mejora aún más con recursos bilingües, este proyecto mejorará la calidad de la traducción automática en tales casos, con un impacto real en la industria de la traducción.

Kode ofiziala: 
TIN2017‐91692‐EXP
Ikertzaile nagusia: 
Eneko Agirre
Erakundea: 
Ministerio de Economía, Industria y Competitividad. (Explora)
Hasiera data: 
2018/11/01
Bukaera data: 
2020/10/31
Taldeko ikertzaile nagusia: 
Eneko Agirre
Kontratua: 
Ez