5 juin 2024

Traduction automatique vs IA générative en traduction : analyse comparative

Traduction automatique neuronale ou grands modèles de langage : quelle option fournit les meilleurs résultats ? Découvrez l’option qui s’impose dans les travaux de recherche exclusifs menés par Acolad.

Le domaine de la traduction connaît une transformation sans précédent, en raison des progrès rapides de l’intelligence artificielle. Cette évolution a soulevé une question fondamentale : est-ce que la traduction automatique neuronale (NMT pour Neural Machine Translation) ou les grands modèles de langage (LLM pour Large Language Models) plus récents offrent des performances et une efficacité optimales pour les tâches de traduction ? Nos travaux de recherche exclusifs donnent un aperçu direct des performances de la NMT et des LLM.

À l’aide de métriques d’évaluation et d’ensembles de données d’essai divers, nous analysons les forces et les faiblesses de chaque technologie et leur impact sur la qualité des traductions, l’efficacité et l’application. En analysant ces technologies, nous cherchons à découvrir la solution la plus prometteuse pour des cas d’utilisation spécifiques. Rejoignez-nous pour en savoir plus.

Points à retenir

De manière générale, nos travaux de recherche ont démontré qu’un modèle NMT bien entraîné surpasse l’IA générative dans la plupart des métriques clés.

Traduction de qualité supérieure

La NMT obtient un score BLEU 13 % plus élevé par rapport aux scores moyens des LLM évalués.

Meilleure précision contextuelle

La NMT est 4 % plus performante en COMET-QE, même si les LLM génèrent des résultats linguistiques acceptables avec des scores au 90e percentile ou au-delà.

Efforts de post-édition réduits

La NMT obtient des scores de distance de post-édition (PED) 16 % inférieurs à GPT-4, le LLM testé le plus performant. En outre, le taux de traduction modifié (TER) révèle un avantage de 35 %, indiquant un besoin de corrections moindre par rapport au contenu de référence.

Méthodologie

Ces recherches, menées par Acolad Labs et basées sur les données d’une étude précédente, ont intégré du contenu de la vie réelle afin de garantir la pertinence pratique. L’étude comprend deux composantes principales : La première composante se concentre sur la traduction purement automatisée, dans laquelle les performances de la traduction automatique neuronale (NMT) et les grands modèles de langage (LLM) sont évalués sans aucune post-édition humaine. La seconde composante implique une approche « human in the loop », dans laquelle des linguistes professionnels révisent et peaufinent les traductions générées automatiquement, évaluant l’efficacité et la qualité combinées de la collaboration humain-IA. Les révisions par des humains ont été effectuées par un prestataire de services linguistiques tiers afin de garantir une évaluation indépendante.

Cette phase comprenait des langues additionnelles diverses, notamment le français, le roumain, le suédois et le chinois. Une bibliothèque améliorée de prompts, basée sur des enseignements antérieurs, a été utilisée conjointement avec une terminologie et des instructions stylistiques optimisées pour les modèles d’IA. Étaient incluses des méthodes de nettoyage de glossaire issues de la traduction automatique et des techniques d’abstraction de prompts selon un modèle croisé. Un éventail plus large de comparaisons menées dans le domaine de la traduction par l’IA a été introduit, évaluant les multiples systèmes de traduction automatique neuronale et les grands modèles de langage.

Cette approche complète a permis d’obtenir une comparaison détaillée des capacités de l’IA dans les solutions linguistiques à l’échelle de l’entreprise.


Partie 1

Évaluation des performances de la traduction automatisée

Pour effectuer l’analyse du résultat entièrement automatisé, les systèmes évalués comprenaient :

  • Un moteur de traduction automatique neuronale pré-entraîné
  • Un grand modèle de langage accessible via une plateforme API d’IA personnalisée
  • Des grands modèles de langage variés, dont un entraîné avec des paramètres étendus, et un autre axé sur le traitement de données à grande échelle : ChatGPT-4 d’OpenAI (Turbo), Mistral (Large), Llama 2 (70b), et LLM Acolad. 

L’analyse a utilisé du contenu de la vie réelle, notamment le formatage avec du balisage en ligne, et les dépendances terminologiques : une bonne représentation du type de contenu souvent envoyé en traduction. Ce contenu a été pré-traité et analysé comme à l’accoutumée grâce à notre système de gestion des traductions, et les résultats obtenus automatiquement ont été comparés au contenu traduit par des linguistes professionnels, connaissant bien le domaine du contenu testé.

Les LLM ont été entraînés pour restreindre leur résultat à une terminologie et un style spécifiques, alors que nous avons également employé d’autres méthodes telles que les abstractions des prompts « one-shot/few-shot » pour tenter d’améliorer le résultat LLM.  Il est important de souligner que les LLM de différents prestataires ont nécessité différentes stratégies de prompting, en particulier lorsqu’il s’agissait de la structure technique du contenu.

Les résultats de la NMT, des LLM et du contenu traduit par des professionnels ont ensuite été soumis à une série de métriques du secteur :

BLEU (Bilingual Evaluation Understudy) : une métrique largement utilisée qui compare à quel point une traduction automatique se rapproche d’une traduction humaine de grande qualité, en se concentrant sur le nombre de correspondances entre les séquences de mots.

chrF (Character Level F-score) : alors que la métrique BLEU évalue les correspondances au niveau des mots, chrF étudie la similarité du résultat face à une traduction idéale au niveau des caractères.

COMET (Crosslingual Optimized Metric for Evaluation of Translation) : contrairement aux modèles BLEU et chrF, qui se basent sur des comparaisons statistiques, COMET utilise la puissance des réseaux de neurones pour prédire la façon dont les humains évalueraient une traduction automatique.

PED (Post-Edit Distance) : cette métrique mesure l’effort nécessaire pour transformer un résultat de traduction automatique en une traduction humaine de grande qualité.

TER (Translation Edit Rate) : similaire à la métrique PED, le modèle TER se concentre sur le nombre de modifications nécessaires pour atteindre une correspondance parfaite avec une traduction de référence.

Pour la combinaison anglais-français, la NMT Acolad a surpassé trois grands LLM d’IA : ChatGPT-4 d’OpenAI (Turbo), Mistral (Large), Llama 2 (70b), et notre propre LLM expérimental.

Les meilleurs résultats ont été obtenus dans les trois principales métriques d’évaluation de la qualité BLEU, chrF et COMET. 

Le moteur français de NMT, récemment mis à jour, a également obtenu les meilleurs résultats dans les métriques PED et TER (le score le plus faible étant préférable), qui mesurent le nombre de modifications à effectuer par le post-éditeur pour corriger le texte.

Comme indiqué, le résultat des LLM était satisfaisant sur COMET, considéré comme une bonne mesure de la fluidité linguistique d’un résultat, avec des scores se rapprochant du 90e percentile ou au-delà. Cela démontre que les LLM ont un avenir dans la traduction et la génération de contenu, en particulier avec des langues bien documentées comme le français. Il se peut, en revanche, que les scores COMET élevés ne soient pas alignés avec les attentes du client en matière de précision, de glossaire et de style.

Dans la combinaison anglais-suédois, les résultats étaient similaires, la NMT surpassant les principaux modèles LLM à tous les niveaux.

Pour la combinaison anglais-chinois (simplifié), le moteur NMT obtient les meilleurs résultats dans toutes les métriques, à l’exception de BLEU. Les langues logographiques, comme le chinois, continuent de présenter des résultats mitigés, mais avec l’amélioration de la tokenisation (la méthode selon laquelle les phrases sont décomposées sous forme de mots ou de sous-mots pour être plus faciles à gérer), les modèles à venir afficheront certainement de meilleurs résultats.  Il convient également de noter que certains experts soutiennent que COMET est une métrique de qualité plus exploitable.

Pour notre dernière langue de test, le roumain, ChatGPT-4 d’OpenAI a légèrement surpassé le modèle NMT dans toutes les métriques, bien que les résultats soient assez similaires. Nos équipes utiliseront ce résultat pour réitérer et améliorer ce modèle de traduction automatique. Comme avec tous les systèmes NMT, les modèles de langage doivent être mis à jour et optimisés au fil du temps.

Néanmoins, il convient de noter que les LLM peuvent générer d’autres « bizarreries » inattendues, même en obtenant des scores plus élevés avec des métriques de qualité. Nous reviendrons sur ce point plus tard, après vous avoir fourni plus d’explications sur ces analyses qualité.


Partie 2

Modèle « Human in the loop », la révision linguistique professionnelle

En plus d’évaluer les résultats des traductions entièrement automatisées, nous voulions intégrer une évaluation « Human in the loop » (HITL) afin de garantir une analyse complète de la qualité des traductions. Tous les échantillons ont été fournis aux linguistes formés par le client et présentés comme un test à l’aveugle pour garantir une évaluation objective. Les linguistes ont procédé à la réévaluation du contenu MTPE (traduction automatique avec post-édition) livré au client, et ont fourni des résultats détaillés sous forme de feuilles de score (cinq par langue), avec une analyse au niveau des segments et des commentaires formulés par le linguiste pour une vérification plus approfondie.

D’après les évaluations HITL, alors que les LLM peuvent fournir des traductions acceptables, des erreurs importantes nécessitant une intervention humaine subsistent. Les systèmes NMT ont affiché de meilleures performances dans la réduction des efforts de post-édition, avec des scores de distance de post-édition (PED) et de taux de traduction modifié (TER) inférieurs par rapport aux LLM tels que GPT-4. L’évaluation HITL a révélé des taux d’erreurs variables en fonction des langues, certaines d’entre elles, comme le suédois, présentant plus de difficultés et des taux d’erreurs plus élevés par rapport au français, par exemple. Ainsi, la révision par un humain est particulièrement déterminante pour les langues complexes ou moins fréquemment traduites.

Transformez vos traductions grâce à la précision de l’IA : découvrez les workflows automatisés d’Acolad

Qu’en est-il de l’avenir des LLM et de la traduction automatique ?

Alors que nous envisageons un avenir où les LLM deviendraient de plus en plus sophistiqués, il semble qu’à l’heure actuelle, les modèles NMT adaptés fournissent des résultats plus cohérents et plus faciles à post-éditer pour obtenir une qualité élevée, en particulier avec du contenu de la vie réelle traité dans des workflows classiques de système de gestion de traduction. 

Il est également important de souligner que les modèles NMT hautement entraînés (utilisant un contenu et une terminologie spécifiques à un domaine) ne sont pas soumis aux difficultés techniques et bizarreries qui persistent avec l’IA générative.

La NMT offre une plus grande prévisibilité, en particulier au fil du temps, et pour les langues adaptées. Nous avions également comparé les résultats de la NMT générique et des LLM, et alors que la qualité est inférieure (distance de post-édition accrue, etc.), la prévisibilité du résultat est constante. Avec les LLM, la qualité diminue rapidement, notamment avec des langues autres que l’anglais comme source, et avec des langues moins bien documentées de manière générale. Le résultat du contenu peut varier assez concrètement avec le temps.  

Un exemple concerne les hallucinations IA – en particulier pour les langues moins documentées – qui peuvent affecter le résultat au point d’obtenir une traduction inexploitable. Ceci a été observé dans le cas d’une mauvaise gestion de contenu technique tel que des URL, de la terminologie spécifique à un client ou un domaine, et des courtes phrases. Cela signifie que les LLM ne produisent pas encore de résultats aussi fiables lorsque le contenu est traité en gros volumes, ou à grande échelle.

Dans l’ensemble, les résultats d’Acolad associés à la révision par un expert ont révélé que, bien que le résultat LLM obtienne des scores relativement élevés, le contenu était plus complexe, avec des éléments structurels comme le formatage ou le balisage en ligne.

Par ailleurs, pour répondre à l’exigence de traitement de prompts relativement complexes dans plusieurs langues et modèles, l’application plus étendue de la technologie LLM dans les workflows de traduction augmentera le coût total de traduction, même si les coûts de traitement brut, eux, sont en baisse.

En effet, si vous avez besoin de traduire automatiquement des volumes importants de contenu sans intervention humaine ou post-édition, il est préférable d’opter pour une solution de traduction automatique de qualité éprouvée – pour l’instant.

Comme évoqué précédemment, même en faisant appel à un humain pour éditer le résultat de la traduction automatique, il peut s’avérer plus coûteux d’utiliser la traduction automatique par rapport à l’IA générative, simplement en raison du temps économisé grâce au prompting itératif pour peaufiner le résultat du LLM. En outre, la NMT affiche des scores de distance de post-édition (PED) et de taux de traduction modifié (TER) inférieurs ; elle nécessite donc moins de travail de correction comparé au LLM.

Malgré ces résultats, il est clair que les LLM d’IA générative auront toujours un rôle important à jouer dans l’automatisation des traductions – en particulier avec le perfectionnement des modèles. Ils présentent un potentiel intéressant dans leurs applications, par exemple pour la réécriture stylistique du résultat de TA. Des éléments extrêmement probants indiquent que les LLM pourraient jouer un rôle décisif dans l’évaluation de la qualité, pouvant venir en l’appui des capacités en traduction telles que la post-édition « auto-réfléchissante ».

Ils affichent clairement des possibilités intéressantes dans le traitement des ambiguïtés, expressions idiomatiques, références culturelles, et même des tournures humoristiques que certains modèles de TA ont du mal à traiter, compte tenu des ensembles de données utilisés pour façonner leurs modèles.

NMT VS LLM : comment faire le bon choix ?

Le choix entre traduction automatique neuronale (NMT) et grands modèles de langage (LLM) dépend de vos besoins spécifiques en traduction et du contexte dans lequel sera employée la technologie. Si votre priorité réside dans la vitesse et la précision pour du contenu spécialisé, la NMT est l’option à privilégier. Cette dernière est spécialement conçue pour les tâches de traduction et surpasse habituellement les LLM en matière de précision, même si cette option peut nécessiter un investissement plus important dans la formation et entraîner occasionnellement des traductions moins naturelles.

D’un autre côté, si votre projet requiert un langage plus familier et naturel – en particulier en anglais – et que vous avez le temps de peaufiner le résultat, les LLM pourraient être plus adaptés. Ils sont nettement plus lents et consommateurs de ressources par rapport à la NMT, mais leurs résultats peuvent être considérablement améliorés grâce à des techniques d’ingénierie de prompts. Cependant, gardez à l’esprit qu’ils ont tendance à produire des résultats incohérents et de potentielles erreurs, comme des hallucinations ou des ajouts non pertinents.

En résumé, optez pour la NMT si la livraison rapide de traductions hautement précises est primordiale, et que votre budget vous permet d’investir dans son développement. Et choisissez les LLM si le projet est plus orienté vers le développement, et vise à produire un langage fluide et naturel, en tenant compte des éventuelles corrections à apporter.

Traduction automatique neuronale

  • Performances optimales pour une livraison rapide.
  • Développée pour la traduction, surpassant habituellement les LLM génériques en termes de précision.
  • Peut entraîner occasionnellement des traductions moins naturelles.
  • Formation disponible, mais peut nécessiter un investissement important.

Grands modèles de langage

  • Plus lents que la NMT.
  • Génèrent un langage fluide, naturel, notamment en anglais.
  • Peuvent s’améliorer avec des techniques spécifiques et des données utilisateurs – L’ingénierie de prompt est la clé !
  • Peuvent générer des résultats incohérents ou imprévisibles, notamment des hallucinations, omissions ou ajouts.

date icon5 juin 2024     tag iconTraduction

Vous voulez trouver la technologie la mieux adaptée à vos besoins ?

À propos d’Acolad Labs

Acolad Labs est une division spécialisée au sein d’Acolad qui se consacre à l’élaboration de solutions sur-mesure pour améliorer la pile technologique existante d’Acolad. Composée d’un vaste réseau d’experts techniques et de concepteurs de logiciels chevronnés, cette équipe d’élite veille à ce que chaque innovation réponde aux besoins changeants des clients, et vienne compléter le portefeuille de produits établi.

Articles connexes