O domínio da tradução está a sofrer uma transformação sem precedentes devido aos rápidos avanços da tecnologia de Inteligência Artificial. Esta evolução suscitou uma questão fundamental: a tradução automática neural (NMT) ou os modelos linguísticos de grande dimensão (LLM) mais recentes oferecem um desempenho e uma eficiência superiores para as tarefas de tradução? A nossa investigação exclusiva fornece uma visão direta do desempenho dos NMT e dos LLM.
Utilizando uma variedade de métricas de avaliação e conjuntos de dados de teste, exploramos os pontos fortes e fracos de cada tecnologia e o seu impacto na qualidade, eficiência e aplicação da tradução. Ao examinar estas tecnologias, pretendemos descobrir qual a solução mais promissora para casos de utilização específicos. Junte-se a nós para descobrir mais.
Principais destaques
Em geral, esta investigação mostrou que um modelo NMT bem treinado supera a IA generativa na maioria das métricas principais.
Metodologia
Esta investigação, conduzida pela Acolad Labs e baseada nos conhecimentos de uma fase anterior, envolveu conteúdos do mundo real para garantir a sua relevância prática. O estudo é constituído por dois componentes principais: O primeiro componente centra-se na tradução puramente automatizada, em que o desempenho da tradução automática neural (NMT) e dos modelos linguísticos de grande dimensão (LLM) é avaliado sem qualquer pós-edição humana. O segundo componente envolve uma abordagem "toque humano", em que linguistas profissionais revêem e aperfeiçoam as traduções geradas por máquinas, avaliando a eficiência e a qualidade combinadas da colaboração entre humanos e IA. As revisões humanas foram efetuadas por um prestador de serviços linguísticos independente para garantir uma avaliação independente.
Esta fase incluiu outras línguas mistas, nomeadamente o francês, o romeno, o sueco e o chinês. Foi utilizada uma biblioteca melhorada de prompts, baseada em aprendizagens anteriores, juntamente com terminologia melhorada e instruções de estilo para modelos de IA. Isto incluiu técnicas de limpeza de glossários a partir da tradução automática e técnicas de abstração de prompts rápida entre modelos. Foi introduzida uma gama mais alargada de comparações no panorama da tradução com IA, avaliando vários sistemas de tradução automática neural e modelos linguísticos de grande dimensão.
Esta abordagem abrangente permitiu uma comparação pormenorizada das capacidades de IA nas soluções linguísticas de nível empresarial.
Parte 1
Avaliação do desempenho da tradução automática
Para a análise de resultados totalmente automatizada, os sistemas avaliados incluíram:
- Um motor de tradução automática neural pré-treinado
- Um grande modelo linguístico acedido através de uma API personalizada da plataforma de IA
- Vários modelos linguísticos de grande dimensão, incluindo um treinado com parâmetros extensos e outro centrado no processamento de dados em grande escala: ChatGPT-4 da OpenAI (Turbo), Mistral (Large), Llama 2 (70b), e Acolad LLM.
A análise utilizou conteúdo do mundo real, incluindo formatação, estilizado com marcação em linha e dependências terminológicas: uma boa representação do tipo de conteúdo frequentemente enviado para tradução. Este conteúdo foi pré-processado e analisado através do nosso sistema de gestão de traduções da forma habitual, e as comparações dos resultados automáticos foram efetuadas com conteúdo traduzido profissionalmente por linguistas familiarizados com o domínio do conteúdo em teste.
Os LLM foram convidados a restringir a sua produção a uma terminologia e a um estilo específicos, ao mesmo tempo que utilizámos outras técnicas, como abstrações de um ou poucos prompts, para tentar melhorar a produção dos LLM. Uma nota importante é o facto de os LLM de diferentes fornecedores necessitarem de estratégias de prompts diferentes, particularmente no que diz respeito à estrutura técnica do conteúdo.
Os resultados dos NMT, dos LLM e dos conteúdos traduzidos profissionalmente foram depois analisados através de uma série de métricas do setor:
BLEU (Bilingual Evaluation Understudy): Uma métrica amplamente utilizada que compara a proximidade entre uma tradução automática e uma tradução humana de alta qualidade, centrada no número de sequências de palavras correspondentes.
chrF (Character Level F-score): Enquanto o BLEU avalia as correspondências ao nível das palavras, o chrF analisa a semelhança do resultado com uma tradução ideal ao nível dos caracteres.
COMET (Crosslingual Optimized Metric for Evaluation of Translation): Ao contrário do BLEU ou do chrF, que se baseiam em comparações estatísticas, o COMET utiliza o poder das redes neuronais para prever como os humanos classificariam uma tradução automática.
PED (Post-Edit Distance): Esta métrica mede o esforço necessário para transformar um resultado de tradução automática numa tradução humana de alta qualidade.
TER (Translation Edit Rate): Embora semelhante à PED, a TER centra-se no número de edições necessárias para obter uma correspondência perfeita com uma tradução de referência.
Para o par de línguas inglês-francês, o NMT Acolad superou os três principais LLM de IA: O ChatGPT-4 (Turbo) da OpenAI, o Mistral (Large), o Llama 2 (70b) e o nosso próprio LLM experimental.
Obteve a melhor classificação em três métricas principais de avaliação da qualidade: BLEU, chrF e COMET.
O motor NMT francês recentemente atualizado também teve o melhor desempenho nas métricas PED e TER (quanto mais baixo, melhor), que medem o número de edições que um pós-editor tem de fazer para corrigir o texto.
Tal como referido, os resultados dos LLM tiveram um bom desempenho no COMET, considerado uma boa medida da fluência linguística de um resultado, com pontuações próximas ou acima do percentil 90. Isto indica que os LLM têm futuro na tradução e na criação de conteúdos, especialmente no caso de línguas com bons recursos como o francês. No entanto, as fortes pontuações do COMET podem não corresponder às expectativas dos clientes em termos de exatidão, glossário e estilo.
No caso de inglês para sueco, os resultados foram semelhantes, com o NMT novamente a superar os principais modelos LLM em todos os setores.
Para o par de línguas inglês-chinês (simplificado), o motor NMT teve o melhor desempenho em todas as métricas - exceto no BLEU. As línguas logográficas, como o chinês, continuam a apresentar resultados mistos, mas com a melhoria da atomização (o método através do qual as frases são divididas em tamanhos mais fáceis de gerir, como palavras ou sub-palavras), os próximos modelos irão provavelmente apresentar melhores resultados. É também de salientar que alguns especialistas defendem que o COMET é uma métrica de qualidade mais útil.
Na nossa língua de teste final, o romeno, o ChatGPT-4 da OpenAI superou ligeiramente o modelo NMT em todas as métricas, embora os resultados tenham sido bastante semelhantes. As nossas equipas utilizarão este resultado para continuar a repetir e melhorar este modelo de tradução automática. Tal como acontece com todos os sistemas NMT, os modelos linguísticos devem ser atualizados e otimizados ao longo do tempo.
No entanto, é de salientar que os LLM podem apresentar outras particularidades inesperadas, mesmo quando obtêm uma pontuação mais elevada nos indicadores de qualidade. Veremos isso mais adiante, depois de explicarmos melhor estas análises de qualidade.
Parte 2
Toque humano, a revisão linguística profissional
Para além de avaliar os resultados de traduções totalmente automatizadas, quisemos incorporar uma avaliação com toque humano (HITL) para garantir uma avaliação abrangente da qualidade da tradução. Todas as amostras foram fornecidas a linguistas formados pelo cliente e apresentadas como um teste cego para garantir uma avaliação imparcial. Os linguistas reavaliaram o conteúdo de pós-edição de tradução automática (Machine Translation Post-Edited) entregue ao cliente e forneceram resultados detalhados do quadro de resultados (cinco por língua), com análise ao nível do segmento e comentários dos linguistas para uma inspeção mais aprofundada.
As avaliações do HITL revelaram que, embora os LLM possam produzir traduções aceitáveis, ainda existem erros significativos que exigem intervenção humana. Os sistemas NMT mostraram um melhor desempenho na redução dos esforços de pós-edição, com pontuações mais baixas de distância pós-edição (PED) e taxa de edição da tradução (TER) em comparação com LLM como o GPT-4. A avaliação do HITL destacou taxas de erro variáveis nas diferentes línguas, com algumas línguas, como o sueco, a apresentarem mais desafios e taxas de erro mais elevadas do que outras, como o francês. Isto indica que a revisão humana é particularmente crucial para línguas complexas ou traduzidas com menos frequência.
O que isto significa para o futuro dos LLM e da tradução automática
À medida que olhamos para um futuro em que os LLM se tornam cada vez mais sofisticados, parece que, por agora, os modelos NMT afinados produzem resultados mais consistentes, que são mais fáceis de pós-editar para alta qualidade, particularmente com conteúdo do mundo real processado em fluxos de trabalho clássicos de sistemas de gestão de tradução.
Também é importante notar que os modelos NMT altamente treinados (utilizando conteúdo e terminologia específicos do domínio) não estão sujeitos a alguns dos desafios técnicos e peculiaridades que persistem quando se utiliza a IA generativa.
Os NMT oferece uma maior previsibilidade, especialmente ao longo do tempo, e entre línguas sintonizadas. Também comparámos anteriormente a produção genérica de NMT com a produção de LLM e, embora a qualidade seja inferior (aumento das distâncias de pós-edição, etc.), a previsibilidade na produção é consistente. Com os LLM, a qualidade diminui rapidamente e, nomeadamente, com as línguas não inglesas como fonte, e com as línguas com menos recursos em geral. A produção de conteúdos pode variar substancialmente ao longo do tempo.
Um exemplo está relacionado com as alucinações da IA - especialmente em línguas com menos recursos - que podem afetar o resultado ao ponto de a tradução simplesmente não ser utilizável. Isto foi observado no tratamento incorreto de conteúdos técnicos, como URL, terminologia específica do cliente ou do domínio e frases curtas, o que significa que os LLM ainda não produzem resultados tão fiáveis quando processam conteúdos em grandes lotes ou em escala.
De um modo geral, os resultados da Acolad combinados com a revisão humana especializada mostraram que, embora o resultado do LLM tenha tido uma pontuação relativamente elevada, teve dificuldades com conteúdos mais complexos com elementos estruturais, como a formatação e a marcação em linha.
Além disso, com a necessidade de gerir prompts relativamente complexos em várias línguas e modelos, a aplicação mais alargada da tecnologia LLM nos fluxos de trabalho de tradução irá aumentar o custo total da tradução, apesar de os custos de processamento em bruto estarem a diminuir.
Efetivamente, se precisar de traduções automáticas para grandes quantidades de conteúdo sem intervenção humana ou pós-edição, é provavelmente melhor confiar numa solução de tradução automática de qualidade comprovada - por enquanto.
Como já referimos, mesmo quando se emprega um toque humano para editar o resultado da tradução automática, pode ser mais económico utilizar a tradução automática do que a IA generativa, simplesmente devido ao tempo que se poupa com a iteração sobre os prompts para refinar o resultado do LLM. Além disso, a NMT tem uma distância pós-edição (PED) e uma taxa de edição da tradução (TER) mais baixas, o que significa que requer menos trabalho para corrigir em comparação com o início com LLM.
Apesar destes resultados, é evidente que os LLM de IA generativa continuarão a ter um grande papel a desempenhar na automatização das traduções - especialmente à medida que os modelos forem sendo aperfeiçoados. Tem aplicações potenciais interessantes para reescrever estilisticamente os resultados da tradução automática, por exemplo. Há fortes indícios de que os LLM podem desempenhar um papel fundamental na avaliação da qualidade, o que pode apoiar capacidades de tradução como pós-edição auto-reflexiva.
Mostram claramente possibilidades interessantes quando lidam com ambiguidades, expressões idiomáticas, referências culturais e até mesmo humor, com os quais alguns modelos de MT têm tradicionalmente tido dificuldades, dados os conjuntos de dados contidos utilizados para construir os seus modelos.
NMT VS LLM: Como fazer a escolha certa?
A escolha entre Tradução Automática Neural (NMT) e Modelos Linguísticos de Grande Dimensão (LLM) depende das suas necessidades específicas de tradução e do contexto em que a tecnologia será utilizada. Se a sua prioridade é a velocidade e a precisão para conteúdos especializados, o NMT é a melhor escolha. É especificamente concebido para tarefas de tradução e, normalmente, supera os LLM em termos de exatidão, embora possa exigir um investimento significativo em formação e, ocasionalmente, resultar em traduções menos naturais.
Por outro lado, se o seu projeto exige uma linguagem mais natural e coloquial - especialmente em inglês - e se pode dedicar tempo a aperfeiçoar os resultados, os LLM podem ser mais adequados. São notoriamente mais lentos e consomem muitos recursos em comparação com os NMT, mas os seus resultados podem ser significativamente melhorados com técnicas de engenharia de prompts. No entanto, deve ter-se em atenção a sua tendência para produzir resultados inconsistentes e potenciais erros, tais como alucinações ou adições irrelevantes.
Em resumo, deve optar pelo NMT se a entrega rápida de traduções altamente precisas for crítica e o orçamento permitir o investimento no seu desenvolvimento. Escolha os LLM se o projeto permitir uma maior contribuição para o desenvolvimento e beneficiar da produção de uma linguagem fluente e coloquial, tendo em conta a necessidade de eventuais correções.
5 de junho de 2024 Tradução
Sobre a Acolad Labs
A Acolad Labs é uma divisão especializada da Acolad dedicada ao desenvolvimento de soluções personalizadas para melhorar a pilha de tecnologia existente da Acolad. Composta por uma equipa diversificada de especialistas em tecnologia e designers de software experientes, esta equipa de elite garante que cada inovação não só satisfaz as necessidades em evolução dos clientes, como também complementa a carteira de produtos estabelecida.
Artigos relacionados