Les méthodes d’évaluation qualité de la traduction automatique

Comprendre les différentes approches de l’évaluation qualité de la traduction automatique et leur incidence sur vos projets de traduction et de localisation.

Grâce aux récentes avancées technologiques, la traduction automatique (MT) gagne en notoriété et en sophistication, alors que les exigences en matière de qualité augmentent. Pour les acheteurs de traduction, il s’agit de savoir si la qualité de la MT peut satisfaire leurs besoins ou s’ils doivent recourir à des processus supplémentaires de post-édition et de révision par des experts.

Pour le prestataire de services linguistiques, il s’agit de déterminer s’il peut améliorer les résultats de la traduction automatique brute pour répondre aux attentes du client, et à quel coût. Cela peut paraître complexe, mais avec la bonne méthodologie et le savoir-faire approprié, il est possible de répondre à ces questions. 

C’est connu, le résultat de la MT brute n’est pas toujours fiable et nécessite une révision. Mais comment savoir si elle permettra un gain de temps, sachant qu’il faut maintenir un standard de qualité de traduction dite « humaine » ? Comment déterminer le gain obtenu par rapport à une traduction « humaine » sans outil ? Personne ne souhaite perdre son temps et son énergie.

Pour cela, il faut des méthodes d’évaluation qualité de la traduction automatique brute. On s’attend généralement à ce que la MT, qui est une traduction produite automatiquement, nous fournisse aussi une indication automatique du niveau d’exactitude ou de fiabilité, ou du moins, à ce qu’il existe des outils pour évaluer automatiquement la qualité de la MT et nous indiquer le temps que prendra la post-édition. Malheureusement, ce n’est pas si simple.

Commençons par le début : comment évaluer la qualité d’une traduction ?

Pour mieux comprendre comment évaluer la qualité de la traduction automatique, étudions tout d’abord l’évaluation de la qualité d’une traduction humaine.

Les exigences de notation de la traduction humaine comprennent (mais sans s’y limiter) les indicateurs qualité multidimensionnels (Multidimensional Quality Metric - MQM), les cadres dynamiques de qualité (Dynamic Quality Frameworks - DQF) et l’indicateur de qualité J2450. Ces normes sont utilisées pour évaluer plusieurs critères de qualité. La traduction doit être exacte d’un point de vue linguistique, compréhensible, fluide, ciblée, etc.

Ces méthodes d’évaluation permettent généralement d’obtenir un score global qui reflète le nombre d’erreurs et leur gravité par rapport à un certain volume de texte. Les résultats obtenus peuvent être adaptés au cas par cas (à l’aide de seuils prédéfinis, par exemple). Vous pouvez ainsi décider si une traduction est bonne ou mauvaise – c’est-à-dire si elle est adaptée à vos besoins ou non. Jusqu’ici, tout va bien.

Mais quelles que soient la norme choisie et la manière de définir les seuils de notation, ce sont des réviseurs, humains, qui au final repèrent et catégorisent les erreurs.

En conclusion, cette tâche reste manuelle et humaine, même pour l’évaluation qualité d’une traduction automatique.

Alors quel est l’intérêt d’une évaluation automatique de la qualité d’une MT ?

La réponse est simple : les scores automatiques sont utiles, mais leur utilité dépend de la réponse que vous attendez.

Le passage de la traduction humaine à la traduction automatique ne fait pas disparaître comme par magie les défis posés par l’évaluation de la qualité d’une traduction. En outre, il existe différents indicateurs de mesure de la qualité de la traduction automatique et votre choix dépendra de ce que vous voulez savoir.

Par exemple, pour savoir si vous pouvez utiliser un contenu traduit automatiquement sans le faire passer par la post-édition, appliquez la même évaluation de qualité que pour la traduction humaine. Le linguiste évaluera le texte cible par rapport au texte source, classifiera les erreurs puis obtiendra un score indiquant si la traduction automatique brute est acceptable ou non dans le contexte donné. Il n’y a pas de formule magique ni de raccourci : si vous voulez vous assurer qu’un texte traduit automatiquement satisfait à vos exigences de qualité, vous devez recourir à un linguiste.

Mais peut-être souhaitez-vous évaluer autre chose ? Comment comparer deux traductions automatiques – c’est-à-dire, avoir une idée générale de la façon dont un moteur de MT se distingue des autres ? Pour les évaluations comparatives, la méthode « BLEU » (BiLingual Evaluation Understudy) pourrait être la mieux adaptée à vos besoins.

Et enfin, quid du point le plus important en cas de post-édition : gagne-t-on du temps de traduction en post-éditant un texte traduit automatiquement plutôt qu’en faisant traduire entièrement ? Et si c’est le cas, quel est le gain de temps ? Si vous voulez être sûr de ne pas déployer trop d’efforts inutiles, la distance de post-édition (PED) pourrait être la méthode qu’il vous faut.

Regardons plus en détail la méthode « BLEU » et similaires ainsi que la méthode « PED » pour mieux comprendre ce qu’elles permettent d’évaluer.

Méthode « BLEU » et méthodes similaires : une seule bonne réponse

La méthode de notation « BLEU » et autres méthodes similaires telles que « HTER » (Human-targeted Translation Error Rate) ou « LEPOR » (Length Penalty, Precision, n-gram Position difference Penalty and Recall) ont été élaborées par des ingénieurs de MT comme une solution rapide et abordable d’évaluer la performance de leur moteur de MT. Elles ne nécessitent en effet aucune intervention humaine. Toutefois, cela signifie aussi qu’elles n’apportent pas les mêmes réponses qu’un linguiste.


Fonctionnement de la méthode « BLEU »

La méthode « BLEU » repose sur l’hypothèse qu’il n’y a qu’une seule bonne traduction pour un texte et que la qualité de la MT correspond alors au degré de similarité entre le résultat de la MT et cette traduction. La « bonne traduction » est appelée « traduction de référence ». C’est un échantillon de texte en langue source et en langue cible, qui a été préalablement traduit par un traducteur humain et est considéré comme étant de bonne qualité.

La mesure repose donc sur ce texte de référence : le texte source est traduit par un ou plusieurs moteurs de MT et un algorithme calcule la différence entre chaque résultat de MT et la traduction de référence. On obtient alors le score « BLEU », exprimé sous forme de chiffre entre 0 et 1, ou entre 0 % et 100 %. Plus le score « BLEU » est élevé, plus les deux textes sont similaires. 

 

Les lacunes de la méthode « BLEU »

Bien que le calcul de la similarité soit plutôt sophistiqué, le principal problème avec la méthode « BLEU » et les indicateurs similaires est qu’ils partent du principe qu’il n’existe qu’une seule bonne traduction pour chaque texte. Or, les linguistes professionnels savent bien qu’il peut y en avoir plusieurs.

Ainsi, la méthode « BLEU » ne mesure pas réellement la qualité de la traduction, mais plutôt la capacité d’un moteur à imiter certains textes de référence.

Naturellement, les scores « BLEU » d’un même moteur de MT varient en fonction du texte de référence. On comprend tout aussi facilement qu’un score « BLEU » obtenu avec un texte de référence de mauvaise qualité ne reflétera pas du tout la qualité de la MT. De plus, le score obtenu dépend du volume de l’échantillon, du jeu de caractères de la langue évaluée, etc. Finalement, ce n’est plus si simple, n’est-ce pas ?

Il apparaît également clairement que la méthode « BLEU » ne peut fournir un jugement de qualité sur de nouveaux textes, car elle doit reposer sur un texte de référence établi (traduit par une personne). Vous ne pouvez pas l’utiliser pour mesurer la qualité de textes qui n’ont jamais été traduits par des humains, d’où son inadéquation à une application prédictive.

Cela reste toutefois un instrument utile pour mesurer l’efficacité de l’entraînement des moteurs de MT et, dans une certaine mesure, pour comparer les moteurs de différents fournisseurs de MT. Il faut cependant rappeler qu’un score « BLEU » n’est pas la caractéristique fixe d’un moteur de MT, mais plutôt un scénario de test. Le même moteur obtiendra un score différent en fonction de la traduction de référence utilisée.

 

Le verdict « BLEU »

Bien que la méthode « BLEU » soit généralement liée au jugement humain de la qualité d’une MT, elle ne mesure pas réellement la qualité d’un texte donné. Elle indique simplement la probabilité qu’un texte semblable à la traduction de référence soit correct. Il apparaît de plus en plus clairement que même dans ce champ d’application limité, la méthode « BLEU » pourrait bientôt devenir obsolète.

La distance de post-édition : mesurer dans des conditions réelles

En quoi consiste la PED ?

La distance de post-édition (post-edit distance, PED) correspond au pourcentage de modifications effectuées sur la traduction automatique jusqu’à l’obtention d’une traduction de qualité suffisante. La principale différence par rapport à la méthode « BLEU » est que la traduction de référence faite par un humain est réalisée à partir d’un texte issu de la MT, ce qui augmente la probabilité que la traduction automatique et la traduction humaine soient similaires ou identiques. La raison en est que les traducteurs maîtrisant la post-édition n’apportent pas de modifications inutiles aux textes traduits automatiquement. À condition que les traducteurs aient fait leur travail correctement, la PED reflète alors bien mieux l’adéquation entre MT et post-édition que la méthode « BLEU ».

N’importe quel traducteur maîtrisant la post-édition peut-il effectuer un travail de post-édition pour une analyse PED ? Pas tout à fait. Le facteur à prendre en compte ici est que le traducteur connaît les attentes du client en matière de qualité. Une traduction automatique peut sembler fluide, sans erreur de sens apparente, et pourtant ne pas avoir le niveau de qualité requis. Par exemple : terminologie ou style propre au client non respecté, limitation de caractères non suivie, informations de formatage perdues, etc. En bref, un linguiste avec une expérience en post-édition et au fait des exigences du client sera toujours préférable.

Avec la PED, des conditions réelles sont nécessaires pour obtenir des chiffres fiables, et la distance de post-édition peut être calculée uniquement sur la base d’une post-édition conforme au niveau de qualité attendu. Un algorithme calcule la différence entre la MT brute et la traduction post-éditée et émet une valeur par segment et par échantillon de texte. Cette valeur indique le pourcentage de MT brute réutilisée par le traducteur, en partant de 100 % (le traducteur n’a effectué aucun changement au segment ou texte) et en allant en décroissant. Des scores de PED élevés indiquent un réel gain d’efficacité pour le traducteur.

 

Comment les scores de PED reflètent-ils l’effort de post-édition nécessaire ?

En règle générale, plus le score de PED est élevé, moins l’intervention sera conséquente. Toutefois, au même titre que les correspondances des mémoires de traduction, un certain pourcentage limite doit être atteint pour qu’il y ait de réels gains d’efficacité. Si la valeur de PED totale d’un type de texte est inférieure à ce seuil, la MT ne permettra pas de gagner du temps.

Dans ce cas, est-ce qu’un score de PED élevé signifie que le traducteur n’a pas effectué de modifications et devez-vous payer pour la post-édition si la PED est proche de 100 % ? Nous répondrons simplement que tout travail de post-édition a un coût. Il faut savoir que même avec une valeur PED très élevée, le traducteur n’a pas chômé. Il a revu entièrement le texte cible en le comparant au texte source, vérifié que la terminologie appliquée par le système de MT était la bonne, et effectué éventuellement des recherches ou demandé des explications, etc. Par conséquent, l’effort de post-édition n’est jamais nul, même lorsqu’on ne voit pratiquement aucune modification. C’est comme lorsqu’on demande un second avis à un autre médecin : si les deux médecins parviennent à la même conclusion, cela ne signifie pas que le deuxième n’a pas procédé à un examen approfondi du patient. 

 

Estimation fiable de l’effort de post-édition

En évaluant les valeurs de PED sur de gros volumes de texte, vous pouvez avoir une indication fiable de l’intervention nécessaire et une estimation des gains d’efficacité. De petits échantillons anecdotiques ne constituent pas une base suffisante pour ce genre d’analyse : les chiffres de PED obtenus peuvent être trop positifs ou négatifs et finalement ne pas être représentatifs des résultats réels moyens. Heureusement, les tests effectués sur des volumes adéquats ne signifient pas que des coûts supplémentaires devront être appliqués à votre processus de traduction normal. Nous sommes experts en la matière, alors n’hésitez pas à demander à votre interlocuteur chez Acolad un pilote de traduction automatique pour apprendre à calculer les économies que vous pourriez réaliser. 

Qualité de la traduction automatique : quel est le meilleur système ?

Chez Acolad, nous savons comment produire des traductions d’excellente qualité et choisissons nos traducteurs et moteurs de MT en conséquence.

Serions-nous prêts à travailler avec un traducteur qui produit un travail d’excellente qualité, mais qui est connu pour partager le contenu de ses clients sur les réseaux sociaux et dévoiler des données confidentielles ? Ou avec un traducteur incapable de se conformer aux exigences techniques et qui introduit régulièrement des erreurs dans les structures et formats XML ? Il faudrait être inconscient ! Tout comme vous auriez tort de faire confiance à un prestataire de services linguistiques qui tolérerait de tels comportements.

Par ailleurs, demanderait-on à un seul traducteur de réaliser des traductions dans toutes nos langues cibles et dans tous les domaines ? Là encore, ce serait insensé.

Les mêmes considérations valent pour la MT. Et nous avons développé une approche rationnelle à cet égard : pour choisir un moteur de MT, nous appliquons une série de critères. Tous ces critères ne portent pas strictement sur la qualité des résultats linguistiques – bien que ce soit une pièce essentielle du puzzle. Afin d’intégrer la traduction automatique à nos processus de façon sûre et efficace, nous tenons aussi compte de la confidentialité, de la disponibilité d’une offre de service durable (y compris en matière d’API), des coûts totaux et de la solidité générale du système.

On entend par « solidité » la capacité à produire une bonne qualité linguistique en dehors des conditions de « laboratoire » : la tolérance des fautes dans le texte source, les phrases incomplètes, le formatage créatif et les expressions en langue étrangère dans les fichiers sources. De plus, nous évaluons la qualité d’intégration dans l’outil à mémoire de traduction adéquat.

Au final, il n’y a pas de solution universelle : un contexte est nécessaire pour déterminer le système de MT le mieux adapté. Les technologies évoluent rapidement et celles que nous avons préférées l’an dernier peuvent ne pas être les meilleures options aujourd’hui. Nous restons à la pointe des avancées du secteur pour que vous n’ayez pas à être vous-même un spécialiste de la MT et nous suivons le marché avec attention pour que vous puissiez choisir le moteur le mieux adapté à votre projet.

Conclusion

Les indicateurs de qualité de la MT comme BLEU, LEPOR, TER ou PED s’avèrent finalement insuffisants pour mesurer la qualité en tant que telle. Mais la bonne nouvelle, c’est qu’ils nous fournissent les KPI dont nous avons besoin pour prendre les bonnes décisions en matière de qualité.

Dans les faits, l’évaluation de la qualité linguistique réelle d’une traduction (qu’elle soit humaine ou automatique) reste un exercice manuel. Actuellement, il n’existe pas de score de qualité automatisé. C’est la raison pour laquelle il est très avantageux d’avoir dans ses équipes des experts dans toutes les langues cibles pour choisir le bon système et évaluer de nouvelles technologies.

Étant donné le rythme auquel évoluent les technologies, d’autres solutions automatisées d’évaluation qualité des traductions devraient voir le jour. En attendant, Acolad maîtrise le sujet.

Découvrez les indicateurs de qualité de la MT et testez notre approche « MT to fit »