Estudio comparativo de métricas de evaluación automática y evaluación humana de la calidad de la traducción automática de patentes
Autor/a
Altres autors/es
Data de publicació
2021-09-03Resum
La traducción automática basada en redes neuronales ha supuesto una revolución
desde su introducción en torno al año 2014, ya que ha proporcionado una gran mejora
de la calidad de las traducciones en comparación con los métodos de traducción
automática utilizados anteriormente (Kinoshita et al., 2017).
La calidad de las traducciones automáticas se puede medir a través de una evaluación
humana o utilizando métricas de evaluación automática. Dada la laboriosidad de la
evaluación humana, su escaso margen de automatización y la necesidad de un elevado
número de participantes en los estudios para compensar su inherente subjetividad, las
métricas de evaluación automática suponen un elemento de gran importancia tanto para
los desarrolladores de motores de traducción automática como para sus usuarios.
Las métricas de evaluación automática comparan una traducción automática de un texto
con una traducción de referencia de ese mismo texto y proporcionan un valor numérico
representativo de su calidad. Existen numerosas métricas de evaluación automática y
cada año surgen nuevas propuestas de métricas originales o versiones de las métricas
ya consideradas estándar (Ma et al., 2019). Sin embargo, desde la perspectiva del
usuario de traducción automática, BLEU (Papineni et al., 2002) parece ser todavía la
métrica más popular y accesible.
Idealmente, tanto un método de evaluación humana como un método de evaluación
automática deberían proporcionar la misma apreciación de la calidad de una misma
traducción automática. Sin embargo, las métricas de evaluación automática más
utilizadas actualmente, como BLEU, parecen ser más adecuadas para la evaluación de
los antiguos métodos estadísticos de traducción automática que para la evaluación de
las traducciones realizadas por los actuales motores de traducción automática basados
en redes neuronales (Shterionov et al., 2018) y en los últimos años han surgido varios
estudios en los que se analizan los problemas de los que adolecen algunas de ellas
(Mathur et al., 2020a).
La literatura de patentes ofrece un entorno excelente para el estudio de las métricas de
evaluación automática de la calidad de las traducciones automáticas, ya que es
relativamente sencillo encontrar una misma patente traducida profesionalmente a un
4
gran número de lenguas y, por lo tanto, es posible utilizar estas traducciones como
traducciones de referencia.
En este estudio utilizaremos estas traducciones de referencia para evaluar la calidad de
las traducciones automáticas de varias patentes utilizando dos motores de traducción
automática pensados para la traducción de textos generales, Google Translate y DeepL,
así como dos motores de traducción automática diseñados y entrenados
específicamente para literatura de patentes, WIPO Translate (Pouliquen, 2017) y EPO
Translate.
Para ello utilizaremos varias de las métricas de evaluación automática consideradas
estándar y otras métricas de evaluación automática introducidas más recientemente y
llevaremos a cabo una evaluación y comparación de la información suministrada por
ellas. Asimismo, llevaremos a cabo una evaluación humana y analizaremos la
correlación entre estas métricas de evaluación automática y los resultados obtenidos
mediante la evaluación humana, así como su utilidad a la hora de valorar diversos
motores de traducción automática en el marco de la traducción y posedición profesional
de patentes.
Neural network-based machine translation started a revolution since its introduction
around 2014, providing a great improvement in translation quality compared to previously
used machine translation methods (Kinoshita et al., 2017).
The quality of machine translations can be measured through human evaluation or using
machine evaluation metrics. Given the laboriousness of human evaluation, its low margin
for automation, and the need for a high number of study participants to compensate for
its inherent subjectivity, automatic evaluation metrics might be a key element for both
machine translation engine developers and their users.
Automatic evaluation metrics compare a machine translation of a text with a reference
translation of the same text and provide a numerical value representative of its quality.
Numerous machine evaluation metrics exist, and new proposals for original metrics or
versions of metrics already considered standard emerge every year (Ma et al., 2019).
However, from the machine translation user's perspective, BLEU (Papineni et al., 2002)
still seems to be the most popular and accessible metric.
Ideally, both a human evaluation method and a machine evaluation method should
provide the same appreciation of the quality of the same machine translation. However,
the most widely used metrics, such as BLEU, seem to be more suitable for the evaluation
of the older statistical machine translation methods than for the evaluation of neural
translations (Shterionov et al., 2018) and several studies have emerged in recent years
analyzing the problems that some of them suffer from (Mathur et al., 2020a).
The patent literature provides an excellent framework for the study of machine translation
quality assessment metrics, as it is relatively easy to find the same patent professionally
translated into a large number of languages and it is therefore possible to use these
translations as reference translations.
In this study we use these reference translations to assess the quality of machine
translations of several patents performed using two machine translation engines
intended for general text translation, Google Translate and DeepL, as well as two
machine translation engines designed and trained specifically for patent literature, WIPO
Translate (Pouliquen, 2017) and EPO Translate.
For this purpose, we use several of the machine evaluation metrics considered standard
and other machine evaluation metrics introduced more recently and carry out an
evaluation and comparison of the information provided by them. We also carry out a
human evaluation and analyze the correlation between these machine evaluation
metrics and the results obtained through human evaluation, as well as their usefulness
when evaluating various machine translation engines in the context of professional
patent translation and post-edition.
Tipus de document
Treball fi de màster
Versió del document
Director/a: Carla Parra Escartín
Llengua
Castellà
Paraules clau
Traducció i interpretació
Traducció automàtica
Investigació -- Avaluació
Qualitat (Lingüística)
Tractament de textos
Pàgines
71 p.
Nota
Curs 2020-2021
Aquest element apareix en la col·lecció o col·leccions següent(s)
Drets
Tots els drets reservats