Esteka gehiago
More Links

Fitxategiak
Archives

Welcome to TADeep

eu: Itzulpengintza automatiko sakona.
es: Traducción autmática en profundad.

La traducción automática (TA) de calidad sigue siendo un reto en 2015.

Las empresas usuarias y los usuarios particulares se han familiarizado con las ventajas y limitaciones de su uso. Mientras las primeras focalizan en aumentar la productividad, combinando las memorias de traducción, las herramientas de TA y los entornos de postedición; los segundos la usan intensivamente aunque no siempre les ofrece la calidad que quisieran.

Apoyándonos en los trabajos y resultados del proyecto previo TACARDI (MINECO-lTIN2012-38523-C02-01) y de nuestra actual participación en el proyecto europeo QTLeap (FP7-ICT-2013.4.1-610516) proponemos investigar en técnicas que mejoren el estado del arte en sistemas de TA, centrándonos en dos aspectos:

Los idiomas implicados en el proyecto serán inglés, español y euskera. Los dos primeros por razones de volumen de información y de posibilidades de llegar al mercado, y el tercero por el reto que suponen las características del idioma: al ser morfológicamente más rico, de orden libre y disponer de menos recursos, es un banco de pruebas ideal para que las conclusiones de este proyecto puedan ser extrapoladas a otros pares de idiomas.

El grupo IXA de la UPV/EHU tiene el know-how y la experiencia necesaria para hacer frente a este proyecto. Somos expertos en TA, morfología, sintaxis, semántica y aprendizaje automático. Lluís Màrquez nos asesorará en temas de aprendizaje automático y evaluación.

La colaboración con la Fundación Elhuyar añade potencialidad práctica al proyecto, aportando:

Sobre el interés que despierta la TA en el ámbito de I+D+i se pueden citar varios indicadores a nivel europeo y mundial:

Además, este proyecto está relacionado con dos de los retos sociales del plan de la Estrategia Española de Investigación, Desarrollo e Investigación: "Cambios e innovaciones sociales" y "Economia y sociedad digital".

PALABRAS CLAVE: RADUCCIÓN AUTOMÁTICA, APRENDIZAJE EN PROFUNDIDAD, TECTOMT




en: Deep Machine Translation.

In 2015, high quality machine translation (MT) is still a challenge. Users, whether companies or individuals, are currently aware of the benefits and limitations of these systems. Whereas companies focus on increasing productivity by combining translation memories, CAT tools and post-editing environments, regular users use MT systems extensively even when the quality does not reach the desired level.

Based on our previous work and results in the TACARDI project (MINECO-lTIN2012-38523-C02-01) and our current work on the QTLeap European project (FP7-ICT-2013.4.1-610516), we propose to investigate techniques that improve the state of the art of MT systems by focusing on two important aspects:

  • Deep analysis and Deep NLP. Neural networks and their application through "word embedding" and "deep-learning" have revolutionized the area of NLP in the last three years. Also, our work on adapting the Depfix and TectoMT tools for the English-Spanish and English-Basque language pairs within the QTLeap project using deep syntax and semantics, provide an exceptional test-bed for new advances in the area.

  • Domain-specific MT. Given their current level of output quality, appropriate domain adaptation is the best guarantee for quality improvement: technical domains, such as the IT domain explored in the QTLeap project, social networks explored in the TACARDI project, or other highly topical domains such as the medical domain or services can achieve improvements of commercial value.

The working languages of the project will be mainly English, Spanish and Basque. The first two avail of large quantities of information to exploit during research and they have high possibilities to reach the market. Basque, in turn, poses a research challenge given its rich morphology, free word order and fewer available resources, which presents an ideal set-up to explore the generalisability of the project's outcomes to other language pairs.

The IXA group at UPV/EHU has the know-how and experience required to undertake this project. The group does not only include experts in MT but also experts in morphology, syntax, semantics and machine learning.

Given the strong research capacity of the IXA group, the collaboration with Fundación Elhuyar is extremely beneficial to the project for three main aspects:

  • Provision of resources (corpora, lexicons...). via Web as Corpus will provide us with representative resources for the domains of the project.

  • Evaluation of results. A department within the Fundación Elhuyar has wide experience in evaluation and in MT post-editing.

  • Access to the market and prototype testing. They collaborate with the well-known Fundación Consumer in a project to adapt MT to the services domain.

Here is a list of indicators that show the current interest MT generates within R+D+i:

  • The "Strategic Research Agenda For Multilingual Europe 2020" by METANET

  • The European report of LT-Innovate 2013 "Status and Potential of the European Language Technology Markets"

  • The North American Association for Computational Linguistics (NAACL)

This project is closely related to two of the social challenges within the Spanish Strategy for Research, Development and Innovation, namely, "Social change and innovation" and "Economy and digital society"

KEY WORDS: ACHINE TRANSLATION, DEEP LEARNING, TECTOMT