Machinevertaling (MT) wordt alsmaar populairder en gesofisticeerder naarmate de technologie evolueert, hierdoor worden de kwaliteitsverwachtingen ook steeds hoger. De vraag die wordt gesteld door klanten op het gebied van vertaling is of de kwaliteit van MT voldoende is voor hun doeleinden en of bijkomende post-editing- en reviewprocessen door menselijke experts nodig zijn.
Post-editors en providers van taaldiensten moeten vaststellen of zij onbewerkte resultaten van machinevertaling kunnen verbeteren om te voldoen aan de verwachtingen van klanten – en tegen welke prijs. Dit probleem is niet makkelijk op te lossen maar met behulp van de juiste methodologie en knowhow absoluut mogelijk.
Wij weten dat MT niet altijd betrouwbaar is en dat de onbewerkte output moet worden gereviseerd, maar hoe komen we erachter of het daadwerkelijk tijdbesparend is terwijl we tegelijkertijd aan de menselijke kwaliteitsnormen moeten voldoen? Hoe bepalen we de hoeveelheid inspanning die wordt bespaard in vergelijking met een menselijke vertaling helemaal vanaf het begin? Want uiteindelijk zou het zonde zijn als we tijd en inspanningen verspillen.
We hebben daarom methoden nodig waarmee de kwaliteit van onbewerkte machinevertaling kan worden beoordeeld. Mensen verwachten doorgaans dat MT, een automatisch geproduceerde vertaling, ook gepaard gaat met een automatisch geproduceerde indicatie van de juistheid of betrouwbaarheid ervan – of dat er op zijn minst toch tools bestaan om de kwaliteit van MT te waarderen en de inspanning die nodig is voor post-editing aan te geven. Was het maar zo eenvoudig!
Hoe wordt de vertaalkwaliteit eigenlijk geëvalueerd?
Om een beter inzicht te krijgen in de wijze waarop we de kwaliteit van machinevertaling kunnen evalueren, is het logisch om te kijken naar de wijze waarop de kwaliteit van menselijke vertaling momenteel wordt geëvalueerd.
Scoringnormen voor menselijke vertaling omvatten (maar zijn niet beperkt tot) Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) en J2450 Translation Quality Metric. Deze normen worden gebruikt voor de evaluatie van kwaliteitscriteria zoals taalkundige juistheid, begrijpelijkheid, vloeiendheid, culturele geschiktheid, enzovoort.
Deze evaluatiemethoden leiden doorgaans tot een algemene score die een weerspiegeling vormt van het aantal fouten en de ernst ervan in verhouding tot het volume van een specifieke tekst. Deze scores kunnen worden afgestemd op het relevante gebruiksgeval (bijv. met behulp van aangepaste drempels), zodat jij kunt bepalen of een vertaling goed of slecht is – dit wil zeggen of het al dan niet geschikt is voor jouw doeleinden. Alles goed en wel.
Maar welke norm je ook kiest – en hoe je jouw drempels ook definieert – de taak die verband houdt met het opsporen en indelen van fouten overeenkomstig deze meetkundige functies ligt volledig in handen van menselijke revisoren.
En hier dan het verwachte slechte nieuws: deze taak blijft een handmatige, menselijke taak, zelfs wanneer je de kwaliteit van machinevertaling evalueert.
Dus wat is dan het nut van een automatische scoring van de kwaliteit van machinevertaling?
Het antwoord is simpel: automatische scores zijn nuttig – het nut ervan is echter afhankelijk van het antwoord dat je verwacht.
De uitdagingen die gepaard gaan met de evaluatie van de daadwerkelijke vertaalkwaliteit verdwijnen niet op magische wijze wanneer wordt overgeschakeld van een menselijke vertaling naar een machinevertaling. Er bestaan bovendien diverse meetkundige functies voor het meten van de kwaliteit van de machinevertaling, en degene die jij moet gebruiken, hangt af van wat jij wilt weten.
Als je bijvoorbeeld wilt weten of content van machinevertaling kan worden gebruikt zonder post-editing voor een specifiek gebruiksgeval, dan zou je in principe dezelfde kwaliteitsbeoordeling gebruiken als bij menselijke vertaling: een gekwalificeerde taalkundige reviseert de vertaling en de brontekst, classificeert fouten en verkrijgt vervolgens een score die aangeeft of de onbewerkte MT al dan niet geslaagd is in de relevante context. Er bestaat geen magische shortcut of andere mogelijkheid: als je zeker wilt zijn of een bepaalde door een machine vertaalde tekst aan jouw kwaliteitsverwachting voldoet, moet de tekst door een vertaler worden nagekeken.
Maar wat als je een andere vraag hebt? Wat als je een MT met een MT wilt vergelijken om een algemeen idee te krijgen van hoe een specifiek MT-systeem werkt voor een specifieke testset in vergelijking tot andere systemen? Voor vergelijkende evaluaties sluit de BLEU-methode (BiLingual Evaluation Understudy) mogelijk het beste aan op jouw behoeften.
En tot slot, hoe zit het met de vraag die er het meest toe doet in een post-editingcontext: besparen we op vertaalinspanningen door MT te post-editen in plaats van helemaal vanaf het begin te vertalen? En zo ja, hoeveel? Indien je er in dit geval zeker van wilt zijn dat je geen tijd verliest, kan PED (Post-Edit Distance) de meetmethode zijn waar jij naar op zoek bent.
Laten we BLEU en vergelijkbare methoden en PED eens van dichterbij bekijken om een beter inzicht te krijgen in wat zij eigenlijk meten.
BLEU en vergelijkbare methoden – er is maar één juist antwoord
De methodologie BLEU-scoring (BiLingual Evaluation Understudy) en vergelijkbare methoden zoals HTER (Human-Targeted Translation Error Rate) of LEPOR (Length Penalty, Precision, n-gram Position difference Penalty & Recall) zijn door MT-engineers ontwikkeld als een snelle en goedkope manier om hun MT-systeem te evalueren omdat hier geen menselijke evaluator bij nodig is. Dit betekent evenwel dat zij evenmin dezelfde antwoorden verstrekken als een menselijke evaluator.
Hoe werkt BLEU
BLEU is gebaseerd op de veronderstelling dat er slechts één juiste vertaling is voor een tekst en dat de kwaliteit van MT de mate is waarin een MT-output gelijk is aan die vertaling. De “juiste vertaling” wordt de referentievertaling genoemd en is een voorbeeldtekst in zowel de bron- als de doeltaal. Meer concreet betekent dit dat het een voorbeeld is dat voorheen door een mens is vertaald en van goede kwaliteit is.
De meting gebeurt dan ook exact op basis van die referentietekst: de brontekst wordt vertaald door één of meerdere MT-systemen en een algoritme berekent het verschil tussen elk MT-resultaat en de referentievertaling. Het resultaat is de zogenaamde BLEU-score die wordt uitgedrukt als een cijfer tussen 0 en 1, of tussen 0% en 100%: hoe hoger de BLEU-score, hoe meer gelijkenis tussen de twee teksten.
Tekortkomingen van BLEU
Hoewel de wijze waarop deze methode de gelijkenis berekent vrij gesofisticeerd is, is het voornaamste probleem met BLEU en vergelijkbare metrische functies dat zij ervan uitgaan dat er slechts één juiste vertaling bestaat voor elke tekst. Professionele taalkundigen realiseren zich echter over het algemeen dat er verschillende geschikte vertalingen kunnen zijn voor een bepaalde brontekst.
Dit betekent dus dat BLEU niet echt de vertaalkwaliteit meet maar eerder de mate waarin een specifiek systeem bepaalde referentieteksten kan nabootsen.
Het is gemakkelijk te begrijpen dat BLEU-scores voor hetzelfde MT-systeem zullen verschillen afhankelijk van de referentietekst. Het is ook duidelijk dat een BLEU-score verkregen op basis van een referentietekst van slechte kwaliteit de kwaliteit van de MT totaal niet zal weerspiegelen. Bovendien zal de score afhangen van de grootte van het voorbeeld dat je gebruikt, de reeks eigenschappen van de gemeten talen en andere factoren. Niet zo simpel, toch?
Het is ook duidelijk dat BLEU geen oordeel kan vellen over de kwaliteit van nieuwe teksten omdat het een testscenario vereist met een vastgestelde (door een mens vertaalde) referentietekst. Je kunt BLEU niet gebruiken om de kwaliteit te meten van machinevertalingen die nooit eerder zijn vertaald door mensen, dus is het erg ongeschikt als voorspellende toepassing.
BLEU is daarentegen een waardevol instrument om het effect te meten van systeemtrainingen en – in zekere mate – om de systemen van verschillende MT-providers met elkaar te vergelijken. Het is echter belangrijk om op te merken dat een BLEU-score geen vaste eigenschap van een MT-systeem is, maar eerder van een testscenario. Hetzelfde systeem zal een andere score geven afhankelijk van de referentievertaling.
Het oordeel van BLEU
Hoewel BLEU doorgaans op één lijn ligt met de beoordeling door een mens van de MT-kwaliteit, beantwoordt het niet bepaald aan de kwaliteitsvraag voor een specifieke tekst. Het geeft slechts een indicatie van hoe waarschijnlijk het is dat een tekst die vergelijkbaar is met de referentievertaling juist zal zijn. Bovendien bestaat er steeds meer bewijs dat zelfs binnen dit beperkte toepassingsbereik BLEU het einde nadert van zijn bruikbaarheidsduur.
PE Distance – Meting bij omstandigheden uit de echte wereld
Hoe werkt PED
Post-Edit Distance (PED) meet hoeveel editing er nodig is opdat een door een machine vertaalde tekst voldoet aan de kwaliteitsverwachtingen. In vergelijking tot BLEU is het grootste verschil dat de menselijke referentievertaling eigenlijk gebeurt op basis van MT. Hierdoor is de kans groter dat de machinevertaling en menselijke vertaling vergelijkbaar of identiek zijn. Dit komt doordat vertalers met een degelijke post-editingachtergrond geen onnodige wijzigingen zullen aanbrengen in de MT. Als we er bijgevolg van uitgaan dat de vertalers hun werk naar behoren hebben uitgevoerd, weerspiegelt PED de geschiktheid van de MT voor post-editing veel beter dan BLEU.
Kan dan elke taalkundige met post-editingervaring de post-editing uitvoeren voor een PED-analyse? Niet echt. Hier is het vooral zaak dat de vertaler de kwaliteitsverwachtingen van de klant daadwerkelijk begrijpt. Een machinevertaling kan vloeiend klinken, zonder overduidelijke fouten in de betekenis, maar toch niet voldoen aan de kwaliteitsvereisten. Zo kan het bijvoorbeeld gebeuren dat de klantspecifieke terminologie of stijl niet is toegepast, dat teksten langer zijn dan geoorloofd of dat de formatteringsinformatie verloren is gegaan. Kortom: je wilt een taalkundige die ervaring heeft met post-editing en weet met welke klant hij of zij te maken heeft.
Met PED zijn omstandigheden uit de echte wereld vereist om betrouwbare cijfers te verkrijgen en de PED kan enkel worden berekend op basis van post-editing die voldoet aan de kwaliteitsverwachtingen. Een algoritme berekent het verschil tussen de onbewerkte MT en de vertaling met post-editing en verstrekt een waarde per segment en per tekstvoorbeeld. Deze waarde geeft het percentage aan van onbewerkte MT die opnieuw is gebruikt door de vertaler en begint bij 100% (waarbij de vertaler geen wijzigingen heeft aangebracht aan het segment of de tekst) en neemt vervolgens af. Hoge PED-scores wijzen op een werkelijke toename van de efficiëntie voor de vertaler.
Hoe houden PED-scores verband met de post-editinginspanning?
Vuistregel: hoe hoger de PED-score, hoe lager de inspanning. Maar net zoals het geval is bij matches uit het vertaalgeheugen is er steeds een bepaalde percentagedrempel die moet worden bereikt om een daadwerkelijke toename van de efficiëntie te vertegenwoordigen. Indien de algemene PED-waarde voor een specifiek teksttype constant lager is dan deze drempel, dan zorgt MT niet voor een tijdbesparing.
Betekent een hoge PED-waarde dan dat de vertaler geen inspanning heeft geleverd en moet je betalen voor post-editing als de PED-waarde in de buurt van 100% ligt? Het antwoord luidt als volgt: post-editing heeft een prijskaartje. Het is belangrijk om op te merken dat zelfs met een zeer hoge PED-waarde, de inspanning van de vertalers niet gelijk is aan nul: zij hebben een volledige revisie gedaan van de doeltekst en deze vergeleken met de brontekst, gecontroleerd of de MT de juiste terminologie heeft toegepast, eventueel bijkomende research gedaan of verduidelijking verkregen enzovoort. Bijgevolg is de inspanning van post-editing nooit gelijk aan nul, zelfs niet wanneer er bijna geen edits zijn. Dit kan worden vergeleken met een tweede mening door een arts: het is namelijk niet omdat beide artsen tot dezelfde conclusie komen dat de tweede arts de patiënt niet grondig moet onderzoeken.
Betrouwbare voorspellingen op het gebied van post-editinginspanning
Door PED-waarden te evalueren aan de hand van volumes vergelijkbare tekst die groot genoeg zijn, kun je een betrouwbare indicatie van de betrokken inspanning krijgen en de toegenomen efficiëntie kwantificeren. Kleine anekdotische voorbeelden vormen geen geschikte basis voor dit soort analyse, omdat zij kunnen leiden tot PED-cijfers die ofwel te positief ofwel te negatief zijn en uiteindelijk niet representatief zijn voor gemiddelde resultaten uit de echte wereld. Het testen met geschikte volumes betekent gelukkig niet dat er extra kosten worden aangerekend voor jouw gebruikelijke vertaalproces. Wij weten waarover we spreken, dus aarzel niet om Acolad te contacteren voor een Machine Translation Pilot en leer hoe je jouw besparingspotentieel kunt berekenen.
Kwaliteit van de machinevertaling – wat is het beste systeem?
Bij Acolad weten wij wat er nodig is om kwalitatief hoogstaande vertalingen te produceren en wij kiezen onze menselijke vertalers en MT-systemen dienovereenkomstig.
Zouden wij werken met vertalers die buitengewone kwaliteit leveren, maar erom bekend staan dat zij de content van hun klanten delen op sociale platforms en bedrijfsgeheimen onthullen? Of met vertalers die zich niet kunnen houden aan de technische vereisten en regelmatig fouten veroorzaken in XML-structuren en -formats? We zouden wel gek zijn! En jij zou ook gek zijn als je bij een provider van taaldiensten blijft die dergelijk gedrag toelaat.
Zouden we bovendien aan één enkele vertaler vragen om te vertalen naar al onze doeltalen en voor alle onderwerpen? Natuurlijk niet!
Dezelfde overwegingen zijn relevant voor MT en wij hebben een allesbehalve gekke methode ontwikkeld om de uitdaging aan te gaan: bij de selectie van het MT-systeem passen wij een reeks criteria toe waarbij niet alle criteria strikt verband houden met de kwaliteit van de taalkundige output – hoewel dit uiteraard een essentieel stuk van de puzzel vormt. Om machinevertaling op veilige en efficiënte wijze toe te passen in onze processen, houden wij ook rekening met betrouwbaarheid, beschikbaarheid van een duurzaam dienstenaanbod (met inbegrip van API), totale kosten en algemene robuustheid van het systeem.
Wij definiëren robuustheid als het vermogen om goede taalkundige kwaliteit te produceren buiten laboratoriumomstandigheden. Dit behelst de tolerantie van typefouten in de brontekst, onvolledige zinnen, creatieve formattering en anderstalige zinnen in bronbestanden. Bovendien evalueren we de kwaliteit van de integratie in de relevante vertaalgeheugentool.
Er is uiteindelijk geen oplossing die geschikt is voor iedereen en er is behoefte aan een concrete context om de volgende vraag te kunnen beantwoorden: Wat is het “beste” MT-systeem? De technologie evolueert snel en de technologieën waarnaar onze voorkeur vorig jaar uitging, zijn vandaag mogelijk niet de beste opties. Wij blijven op de hoogte van de nieuwste snufjes in de sector zodat jij geen MT-expert hoeft te zijn en wij monitoren de markt zodat jij het MT-systeem kan kiezen dat het beste aansluit op jouw scenario.
Conclusie
Het blijkt dus dat de zogenaamde MT-kwaliteitsindicatoren zoals BLEU, LEPOR, TER of PED kwaliteit eigenlijk niet als dusdanig meten. Maar er is ook goed nieuws: zij verstrekken wel de KPI's die wij nodig hebben om kwaliteitsbeslissingen te nemen.
Dus praktisch gezien blijft het meten van de daadwerkelijke taalkundige kwaliteit bij vertalingen – door mensen of machines – nog steeds een handmatige oefening. Er bestaat momenteel niet zoiets als een geautomatiseerde kwaliteitsscore. Daarom is het een groot voordeel om te beschikken over de juiste experts voor alle relevante doeltalen om het juiste systeem te kiezen en nieuwe technologieën te evalueren.
Door de snelle technologische evolutie komen er in de nabije toekomst mogelijk meer geautomatiseerde oplossingen voor de evaluatie van de vertaalkwaliteit. Tot dan heeft Acolad alles goed in handen.