El mundo de la traducción está viviendo una transformación sin precedentes debido a los rápidos avances producidos en la tecnología de inteligencia artificial. Esta evolución ha hecho surgir una pregunta clave: ¿acaso la traducción automática neuronal (TAN) o los más recientes modelos del lenguaje de gran tamaño (LLM) ofrecen un rendimiento y una eficacia superiores para las tareas de traducción? Nuestro exclusivo estudio ofrece una visión de primera mano del rendimiento de la TAN y los LLM.
Utilizamos una variedad de métricas de evaluación y conjuntos de datos de pruebas para explorar los pros y los contras de cada tecnología, así como su impacto en la calidad, la eficacia y la aplicación de las traducciones. El objetivo del análisis de estas tecnologías es revelar qué solución es más prometedora para casos de utilización concretos. Acompáñanos para descubrir más.
Aspectos destacados
En general, este estudio mostró que, en la mayoría de las métricas clave, un modelo de TAN bien entrenado supera con creces a la IA generativa.
Metodología
Este estudio, liderado por Acolad Labs sobre la base de las conclusiones de una fase anterior, incluyó contenidos reales para garantizar su relevancia práctica. El estudio cuenta con dos componentes principales: el primer componente se centra en la traducción puramente automática, en la que se evalúa el rendimiento de la traducción automática neuronal (TAN) y de los modelos del lenguaje de gran tamaño (LLM) sin ningún tipo de posedición humana. El segundo componente integra un enfoque que incluye la participación humana (Human-in-the-loop), en el que hay lingüistas profesionales encargados de revisar y perfeccionar las traducciones automáticas para evaluar la eficacia y la calidad de la colaboración entre IA y humanos. Otro proveedor de servicios lingüísticos se encargó de realizar las revisiones humanas para garantizar la independencia de la evaluación.
Esta fase incluyó otros idiomas de diferentes dificultades, en concreto francés, rumano, sueco y chino. Se empleó una biblioteca de instrucciones, basada en aprendizajes anteriores, junto con instrucciones mejoradas de terminología y estilo para modelos de IA. Esto incluyó técnicas de limpieza de glosarios de traducción automática y técnicas de abstracción de instrucciones entre modelos. Se introdujo una amplia gama de comparaciones en el panorama de la traducción con IA y se evaluaron múltiples sistemas de traducción automática y modelos del lenguaje de gran tamaño.
Este enfoque integral permitió realizar una comparación detallada de las capacidades de la IA en soluciones lingüísticas de nivel empresarial.
Parte 1
Evaluación del rendimiento de la traducción automática
Para el análisis de la traducción totalmente automática, se evaluaron los siguientes sistemas:
- Un motor de traducción automática neuronal ya entrenado
- Un modelo del lenguaje de gran tamaño a través de una API personalizada de una plataforma de IA
- Varios modelos del lenguaje de gran tamaño, uno de ellos entrenado con parámetros extensos y otro centrado en el procesamiento de datos a gran escala: ChatGPT-4 de OpenAI (Turbo), Mistral (gran tamaño), Llama 2 (70 b) y el LLM de Acolad.
Para el análisis se utilizaron contenidos del mundo real con formato, etiquetado a nivel de línea y dependencias terminológicas, es decir, un buen ejemplo del tipo de contenido que se suele enviar para su traducción. Este contenido se procesó previamente y se analizó con nuestro sistema de gestión de la traducción de la forma habitual. Además, se compararon los resultados de la traducción automática y el contenido traducido de forma profesional por lingüistas que conocen el ámbito del contenido de la prueba.
Se dieron instrucciones a los LLM para limitar su resultado a una terminología y un estilo concretos, y además se utilizaron otras técnicas, como abstracciones de una o pocas instrucciones para intentar mejorar el resultado de los LLM. Una cuestión importante es que se necesitaron diferentes estrategias de instrucciones para los LLM de diferentes proveedores, sobre todo en lo que respecta a la estructura técnica del contenido.
A continuación, se evaluaron los resultados de la TAN, los LLM y contenido traducido de manera profesional utilizando una serie de métricas del sector:
BLEU (suplente de evaluación bilingüe): una métrica muy utilizada que compara lo cerca que está una traducción automática de una traducción humana en función del número de secuencias de palabras que coinciden.
chrF (puntuación F a nivel de carácter): si bien el BLEU evalúa las coincidencias a nivel de palabra, el chrF observa la similitud del resultado con una traducción ideal a nivel de carácter.
COMET (métrica multilingüe optimizada para la evaluación de la traducción): a diferencia del BLEU o la chrF, que se basan en comparaciones estadísticas, la COMET recurre al poder de las redes neuronales para predecir de qué manera calificarían los humanos una traducción automática.
PED (distancia de posedición): esta métrica mide el trabajo necesario para transformar un resultado de traducción automática en una traducción humana de alta calidad.
TER (tasa de edición de la traducción): si bien la TER es similar a la PED, la primera se centra en el número de ediciones necesarias para conseguir una coincidencia perfecta con una traducción de referencia.
En la combinación lingüística de inglés a francés, la TAN de Acolad superó a tres grandes LLM de IA: ChatGPT-4 de OpenAI (Turbo), Mistral (gran tamaño), Llama 2 (70 b) y nuestro propio LLM experimental.
Obtuvo la mejor puntuación en tres grandes métricas de evaluación de calidad: BLEU, chrF y COMET.
El motor de TAN de francés, actualizado recientemente, también obtuvo mejor puntuación en las métricas PED y TER (las puntuaciones bajas indican mejores resultados), que mide la cantidad de ediciones que tiene que hacer un poseditor para corregir el texto.
Tal y como se ha señalado, el resultado de los LLM obtuvo una buena puntuación en COMET, que se considera que es una buena medida de la fluidez lingüística de un resultado, con valores cercanos o por encima del percentil 90. Esto indica que los LLM tienen un futuro en la traducción y la generación de contenido, especialmente con lenguas para las que hay buenos recursos, como el francés. Sin embargo, los buenos resultados en COMET pueden no responder a las expectativas de los clientes en lo que respecta a la precisión, el glosario y el estilo.
En el caso del inglés al sueco, se obtuvieron unos resultados similares, ya que, de nuevo, la TAN superó a grandes modelos de LLM en todos los casos.
En la combinación de inglés a chino (simplificado), el motor de TAN obtuvo mejores resultados en todas las métricas, excepto en el BLEU. Las lenguas logográficas, como el chino, siguen presentando resultados desiguales, pero con la mejora de la tokenización (el método por el cual las oraciones se dividen en tamaños más abarcables, como palabras o subpalabras) es probable que los próximos modelos obtengan mejores resultados. También hay que señalar que algunos expertos opinan que la COMET es una métrica de calidad más útil.
En la prueba de la traducción al rumano, ChatGPT-4 de OpenAI superó ligeramente al modelo de TAN en todas las métricas, aunque los resultados fueron muy similares. Nuestros equipos usarán este resultado para seguir repitiendo las instrucciones y mejorar este modelo de traducción automática. Al igual que con todos los sistemas de TAN, los modelos del lenguaje tienen que actualizarse y optimizarse con el tiempo.
No obstante, hay que señalar que los LLM pueden presentar algunas peculiaridades inesperadas, incluso cuando obtienen una puntuación mayor en las métricas de calidad. De esto hablaremos después, pero primero vamos a explicar oros detalles sobre estos análisis de calidad.
Parte 2
Human-in-the-loop: la revisión lingüística profesional
Además de evaluar los resultados de la traducción automática, queríamos incorporar una evaluación del tipo Human-in-the-loop (HITL) para garantizar una evaluación integral de la calidad de las traducciones. Todas las muestras se enviaron a lingüistas formados por el cliente y se presentaron como prueba ciega para garantizar la imparcialidad de las evaluaciones. Los lingüistas volvieron a evaluar el contenido poseditado y entregado al cliente, y facilitaron puntuaciones detalladas (cinco por idioma) con un análisis a nivel de segmento y comentarios para su posterior análisis.
Las evaluaciones HITL revelaron que, si bien los LLM generan traducciones aceptables, siguen presentando errores significativos que requieren la intervención humana. Los sistemas de TAN mostraron un mejor rendimiento a la hora de reducir el trabajo de posedición, con puntuaciones menores para la distancia de posedición (PED) y la tasa de edición de la traducción (TER) en comparación con LLM como GPT-4. La evaluación HITL dejó ver que los porcentajes de error varían entre los diferentes idiomas, ya que hay lenguas, como el sueco, que presentan más desafíos y tasas de error más elevadas que otras, como el francés. Esto indica que la revisión humana es particularmente fundamental para idiomas complejos o que se traducen con menor frecuencia.
Qué supone esto para el futuro de los LLM y la traducción automática
A la vista de que los LLM serán cada vez más sofisticados, parece que, por ahora, los modelos de TAN personalizados producen resultados más coherentes, ya que es más fácil poseditarlos para obtener una calidad alta, especialmente cuando se trata de contenido en tiempo real procesado en los flujos de trabajo clásicos de sistemas de gestión de proyectos de traducción.
Cabe señalar también que los modelos de TAN muy entrenados, que utilizan contenido y terminología del ámbito concreto, no están sujetos a algunos de los desafíos técnicos y las peculiaridades que se dan con la IA generativa.
La TAN ofrece más predictibilidad, especialmente a lo largo del tiempo, y en idiomas personalizados. También hemos comparado antes los resultados de la TAN genérica y los LLM, y, si bien la calidad es inferior (distancias de posedición superior, etc.), la predictibilidad de los resultados es coherente. En el caso de los LLM, la calidad se reduce, especialmente cuando la lengua original no es el inglés y para idiomas con menos recursos. El contenido producido puede variar bastante con el tiempo.
Por ejemplo, tenemos las alucinaciones de la IA, sobre todo en las lenguas con menos recursos, que pueden afectar al resultado hasta el punto de que la traducción puede no ser útil. Esto se vio en el tratamiento incorrecto de contenidos técnicos, como direcciones URL, frases cortas y terminología concreta de clientes o ámbitos, lo que significa que los LLM aún no producen resultados tan fiables cuando procesan contenidos en grandes cantidades o a escala.
En general, los resultados de Acolad combinados con la revisión humana experta mostraron que, si bien los resultados del LLM obtuvieron una puntuación relativamente alta, el LLM tuvo problemas con contenidos más complejos que incluyen elementos estructurales, como formato y etiquetado a nivel de línea.
Además, con el requisito de gestionar instrucciones relativamente complejas en diferentes idiomas y modelos, la aplicación más amplia de la tecnología de LLM en los flujos de trabajo de la traducción aumentará el coste total de la traducción, pese a que los precios de procesamiento sin revisión están reduciéndose.
Efectivamente, si necesitas traducciones automáticas para grandes cantidades de contenido sin intervención humana ni posedición, seguramente sea mejor elegir una solución de traducción automática probada y de calidad, por ahora.
Tal y como hemos dicho ya, incluso cuando se utiliza un enfoque Human-in-the-loop, en el que un humano se encarga de editar el resultado de la traducción automática, puede ser más eficaz recurrir a la traducción automática, en lugar de la IA generativa, simplemente por el tiempo que se ahorra al no tener que repetir instrucciones para perfeccionar el resultado del LLM. Además, la TAN tiene una distancia de posedición (PED) y una tasa de edición de la traducción (TER) menores, de forma que requieren menos trabajo que empezar con un LLM.
A pesar de los resultados, es evidente que los LLM de IA generativa seguirán teniendo un papel importante en la automatización de la traducción, especialmente a medida que se vayan refinando los modelos. Tiene aplicaciones potenciales interesantes; por ejemplo, en su uso para reescribir estilísticamente el resultado de la TA. Hay pruebas fehacientes de que los LLM podrían tener un papel clave en la evaluación de la calidad, y esto podría reforzar algunas capacidades en traducción, como la posedición autorreflexiva.
Es evidente que ofrecen posibilidades interesantes a la hora de manejar las ambigüedades, los modismos, las referencias culturales e, incluso, el humor, cuestiones con las que, normalmente, algunos modelos de TA han tenido problemas debido a los conjuntos de datos limitados que se han utilizado para construir sus modelos.
TAN o LLM: ¿cómo elegir bien?
La elección entre traducción automática neuronal (TAN) y modelos del lenguaje de gran tamaño (LLM) depende de cuáles sean tus necesidades de traducción concretas y del contexto en el que se vaya a utilizar la tecnología. Si tus prioridades para el contenido especializado son la velocidad y la precisión, la TAN es la mejor elección. Está especialmente diseñada para tareas de traducción y, en general, supera a los LLM en términos de precisión, aunque puede requerir una inversión importante en el entrenamiento del motor y, en ocasiones, generar traducciones menos naturales.
Por otro lado, si necesitas un lenguaje conversacional más natural para tu proyecto, especialmente en inglés, y puedes dedicar tiempo a perfeccionar los resultados, los LLM pueden ser más adecuados. Son bastante más lentos y consumen más recursos que la TAN, pero sus resultados se pueden mejorar de forma significativa con técnicas de ingeniería de instrucciones. Sin embargo, hay que ser conscientes de la tendencia que tienen a producir resultados incoherentes y errores potenciales, como alucinaciones o añadidos innecesarios.
En resumen, deberías decantarte por la TAN si necesitas traducciones rápidas de gran precisión y cuentas con presupuesto para invertir en su desarrollo. Elige los LLM si el proyecto permite más aportaciones de desarrollo y se beneficia de la producción de lenguaje conversacional fluido, teniendo en cuenta que probablemente sea necesario hacer correcciones.
5 de junio de 2024 Traducción
Acerca de Acolad Labs
Acolad Labs es una división de Acolad especializada que se dedica al desarrollo de soluciones personalizadas para mejorar el stack tecnológico existente de Acolad. Este equipo de élite, formado por un diverso conjunto de especialistas en tecnología y en diseño de software, garantiza que cada innovación no solo responda a las necesidades variables de los clientes, sino que también sirva de complemento para la cartera de productos establecida.
Artículos relacionados