Kvalitetsvurderinger af maskinoversættelser

Lær om de forskellige tilgange til at vurdere kvaliteten af maskinoversættelser – og hvad det betyder for dine oversættelses- og lokaliseringsbehov.

Maskinoversættelse (MT) bliver stadig mere populær og avanceret, efterhånden som teknologien udvikles, og forventningerne til kvaliteten stiger tilsvarende. Oversættelseskunder står over for spørgsmålet, om kvaliteten af MT er tilstrækkelig til deres formål, og om yderligere menneskelig efterredigering og revidering er nødvendig.

Alle post-editors og leverandører af sprogtjenester skal finde ud af, om den rå maskinoversættelse kan forbedres for at leve op til kundens forventninger – og hvad omkostningerne vil være. Det kan være et vanskeligt problem at løse, men det kan helt sikkert løses med den rigtige metode og knowhow.

Vi ved, at MT ikke altid er pålidelig, og at dens rå resultat skal redigeres, men hvordan ved vi, om MT rent faktisk sparer os arbejde, når vi skal leve op til menneskelige kvalitetsstandarder? Hvordan kan vi finde ud af, hvor stor en indsats MT sparer os for, sammenlignet med menneskelig oversættelse helt fra bunden? Vi har trods alt ikke lyst til at spilde tid og arbejde.

Derfor har vi brug for nogle metoder til at vurdere kvaliteten af de rå maskinoversættelser. Folk forventer som regel, at MT, som er en automatisk produceret oversættelse, også har automatisk producerede indikatorer for dens nøjagtighed og korrekthed – eller i det mindste at der findes værktøjer, som automatisk kan bedømme MT-kvaliteten og indikere, hvor meget efterredigering oversættelsen kræver. Desværre er det ikke så let.

Hvordan kan vi alligevel vurdere oversættelseskvalitet?

For bedre at kunne forstå, hvordan vi kan vurdere kvaliteten af maskinoversættelser, giver det mening at se på, hvordan vi vurderer oversættelser, som mennesker har lavet.

Bedømmelsesskalaen for menneskelige oversættelser omfatter (men er ikke begrænset til) Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) og J2450 Translation Quality Metric. Disse skalaer bruges til at vurdere kvalitetskriterier som sproglig korrekthed, forståelighed, læsbarhed, kulturelle omskrivninger osv.

Disse vurderingsmetoder giver som regel en samlet score, der afspejler mængden af fejl og alvorligheden af dem for en del af en given tekst. Denne slags score kan tilpasses den specifikke kontekst (f.eks. med tilpassede fejlmargener), så du kan afgøre, om en oversættelse er god eller dårlig, altså om den imødekommer dine behov eller ej. Så langt, så godt.

Uanset hvilken bedømmelsesskala du vælger, og hvordan du definerer dine fejlmargener, afhænger registreringen og klassificeringen af fejl for disse skalaer helt af menneskelige korrekturlæsere.

Og det er netop disse dårlige nyheder, du har ventet på: Kvalitetsvurdering af maskinoversættelse er en manuel opgave, som kræver en rigtig person.

Set i det lys, hvad er så pointen med en automatisk score for maskinoversættelse?

Svaret er enkelt: En automatisk score kan være gavnlig – men i hvor høj grad afhænger af dine forventninger.

Udfordringerne i at vurdere den faktiske oversættelseskvalitet forsvinder ikke på magisk vis, når man går fra menneskelige oversættelser til maskinoversættelser. Desuden er der forskellige parametre til at måle kvaliteten af maskinoversættelse, og metoden, som du skal bruge, afhænger af, hvad du gerne vil vide.

Hvis du f.eks. gerne vil vurdere, om maskinoversat indhold kan bruges uden efterredigering til et specifikt formål, skal du grundlæggende bruge de samme vurderingskriterier som ved en menneskelig oversættelse. Her bruger man en dygtig sprogekspert til at korrekturlæse oversættelse og kildeteksten og klassificere fejlene, hvilket resulterer i en score, der viser, om den rå MT bestod eller dumpede i den relevante kontekst. Der er ingen vej uden om: Hvis du vil være sikker på, at en given maskinoversat tekst lever op til dine kvalitetskrav, skal du gøre brug af menneskelig korrekturlæsning.

Men hvad så, hvis du vil finde ud af noget andet? Hvis du f.eks. vil sammenligne MT med MT, dvs. få en overordnet forståelse af, hvor godt en specifik MT-maskine arbejder i en konkret testsituation sammenlignet med andre maskiner? Hvis du vil lave komparative vurderinger, er "bilingual evaluation understudy" (BLEU) nok den metode, der passer bedst til dine behov.

Sidst, men ikke mindst, kommer det vigtigste spørgsmål, hvad angår efterredigering: Sparer vi tid på at efterredigere MT-oversættelse i stedet for selv at oversætte fra bunden? Hvis ja, hvor meget tid sparer vi så? Hvis du vil være sikker på, at du ikke spilder din tid, kan det være, at "post-edit distance" (PED) er den rette metode for dig.

Lad os se nærmere på BLEU og lignende metoder samt PED for at få en bedre forståelse for, hvad de rent faktisk måler.

BLEU og lignende metoder – der findes kun ét korrekt svar

Evalueringsmetoden BLEU og lignende metoder til beregning af en score såsom HTER (Human-targeted Translation Error Rate) eller LEPOR (Length Penalty, Precision, n-gram Position Difference Penalty and Recall) blev udviklet af MT-ingeniører som en hurtig og billig måde at vurdere MT-maskinens indstillinger på, eftersom denne metode ikke kræver menneskelig involvering i evalueringen. Det betyder imidlertid, at de heller ikke nødvendigvis resulterer i de samme svar, som hvis et menneske foretager vurderingen.


Sådan virker BLEU

BLEU er baseret på antagelsen om, at der kun findes én god oversættelse af en tekst, og MT-kvaliteten er den grad, som en given MT-tekst stemmer overens med denne ene "rigtige" oversættelse. Den "gode oversættelse" kaldes referenceoversættelsen og er en tekstdel på både kildesproget og målsproget. Mere konkret er det en tekstdel, der er oversat af et menneske på forhånd, og som anses for at være af god kvalitet.

Vurderingen sker derfor direkte med udgangspunkt i den referencetekst. Kildeteksten er oversat af en eller flere MT-maskiner, og en algoritme beregner forskellen mellem hvert MT-resultat og referenceoversættelsen. Resultatet er den såkaldte BLEU-score, der udtrykkes som en værdi mellem 0 og 1 eller mellem 0 % og 100 %. Jo højere BLEU-scoren er, jo mere ens er de to tekster. 

 

Ulemperne ved BLEU

Selvom denne metode til at beregne overensstemmelsen mellem den hhv. menneskelige og maskinoversatte tekst er meget avanceret, er det primære problem med BLEU og lignende parametre, at de antager, at der kun findes én god oversættelse af hver tekst. Men professionelle sprogeksperter er af den opfattelse, at der kan være flere passende oversættelser af en given kildetekst.

Med det for øje måler BLEU ikke oversættelsers kvalitet, men den grad, hvormed en specifik oversættelsesmaskine kan efterligne givne referencetekster.

Det er klart, at BLEU-scoren for en MT-maskine afhænger af referenceteksten. Det er ligeledes klart, at en BLEU-score, der er beregnet med udgangspunkt i en referencetekst af dårlig kvalitet, på ingen måde afspejler MT-kvaliteten. Desuden vil scoren afhænge af størrelsen af den tekstdel, som du tager udgangspunkt i, tegnsætningen for de målte sprog og andre faktorer. Det er slet ikke så ligetil.

Det er også klart, at BLEU ikke vil kunne levere en kvalitetsbedømmelse af nye tekster, fordi det kræver et testforløb med en allerede oversat (dvs. menneskeligt oversat) referencetekst. Du kan ikke anvende BLEU til at måle kvaliteten af maskinoversættelse, der aldrig før har været oversat af mennesker, hvilket gør den uanvendelig til at foretage prædiktive vurderinger.

BLEU er derimod et velegnet instrument til at måle effekten af maskintræning og – i nogen grad – til at sammenligne maskiner fra forskellige MT-udbydere. Derimod er det vigtigt at bemærke, at BLEU-scoren ikke er en fastlagt egenskab for en MT-maskine, men derimod resultatet af et testforløb. Den samme maskine vil nå frem til en forskellig score afhængigt af referenceteksten.

 

Bedømmelsen af BLEU

Mens BLEU normalt korrelerer med et menneskes vurdering af MT-kvalitet, svarer den ikke altid på spørgsmålet vedrørende kvaliteten af en given tekst. Den viser udelukkende, hvor sandsynligt det er, at en tekst, der stemmer overens med referenceoversættelsen, er korrekt. Desuden er der tegn på, at brugen af BLEU, selv med denne begrænsede mulighed for anvendelse, er ved at have tjent sit formål.

Post-edit distance – kvalitetsvurdering i den virkelige verden

Sådan virker PED

Post-edit distance (PED) måler omfanget af redigering, som en maskinoversat tekst har brug for, hvis den skal leve op til kvalitetsforventningerne. Sammenlignet med BLEU er den primære forskel, at den menneskeligt oversatte referencetekst rent faktisk er baseret på MT, hvilket øger sandsynligheden for, at maskinoversættelse og menneskelige oversættelser ligner hinanden eller er identiske. Det skyldes, at oversættere med lang erfaring inden for efterredigering ikke foretager unødvendige ændringer af MT. Såfremt oversætterne har udført deres arbejde korrekt, er PED meget bedre til at vise, om MT er egnet til efterredigering, end det er tilfældet med BLEU.

Betyder det, at enhver sprogekspert med erfaring inden for efterredigering kan udføre efterredigering til en PED-analyse? Ikke helt. Den vigtige faktor her er, at oversætteren rent faktisk forstår kundens forventninger til tekstens kvalitet. En maskinoversættelse kan være flydende uden nogen åbenlyse forståelsesfejl, men stadig ikke leve op til kvalitetsforventningerne. F.eks. er en kundespecifik terminologi eller stil måske ikke blevet anvendt, teksten overskrider eventuelle tegnbegrænsninger, eller formateringsoplysninger kan være gået tabt. Kort fortalt skal man bruge en sprogekspert med både erfaring i efterredigering og viden om kunden.

PED kræver vurderingskriterier fra den virkelige verden for at få pålidelige tal, og afvigelsen af efterredigeringen kan kun beregnes med udgangspunkt i en redigering, der lever op til kundens forventninger. En algoritme beregner forskellen mellem den rå MT og den efterredigerede oversættelse og giver en værdi for hvert segment og hver tekstdel. Denne værdi viser, hvor mange procent af den rå MT, der blev genbrugt at oversætteren, begyndende ved 100 % (dvs. oversætteren foretog ingen ændringer af segmentet eller teksten) og nedefter. En høj PED-score betyder en reel effektivitetsgevinst for oversætteren.

 

Hvordan er forholdet mellem en PED-score og redigeringsarbejdet?

En tommelfingerregel siger, at jo højere PED-scoren er, desto lavere er arbejdsindsatsen i løbet af efterredigeringen. Ligesom det er tilfældet med matches fra oversættelseshukommelser, skal man op på en bestemt procentsats, for at man kan tale om en reel gevinst i effektivitet. Hvis den samlede PED-værdi for en bestemt type tekst konstant ligger under denne tærskel, vil MT ikke spare dig tid.

Er en høj PED-værdi således ensbetydende med, at oversætteren ikke skulle rette noget, og skal man betale for efterredigering, hvis PED er tæt på 100 %? Svaret er: Hvis du vil have efterredigering, så koster det. Det er vigtigt at holde sig for øje, at selvom PED-værdien er meget høj, skal oversætteren stadig udføre et stykke arbejde. Oversætteren har udført en komplet redigering af målteksten og sammenlignet den med kildeteksten, tjekket om terminologien, der er anvendt af MT-systemet, er korrekt, og vedkommende har muligvis udført ekstra research, tjekket op på uklarheder osv. Derfor er der altid et vist stykke arbejde forbundet med efterredigering, også selvom der næsten ikke er blevet foretaget nogen rettelser. Man kan sammenligne det med at få en anden læges vurdering. Det faktum, at begge læger kommer til samme konklusion, er ikke ensbetydende med, at den anden læge ikke behøvede at undersøge patienten grundigt. 

 

Pålidelig indikatorer for efterredigering

Ved at analysere PED-værdier for en tilstrækkelig stor volumen af din tekst kan du få en pålidelig indikator for oversætterens indsats under efterredigeringen og måle effektivitetsgevinsten. Mindre usystematiske prøver er ikke velegnede til den form for analyse, da de kan resultere i PED-tal, der er for positive eller negative og i sidste ende ikke repræsentative for gennemsnitsresultater fra den virkelige verden. Heldigvis betyder tests med en passende volumen ikke øgede omkostninger for den normale oversættelsesproces. Vi ved, hvad vi har med at gøre, så tøv endelig ikke med at spørge din kontaktperson hos Acolad, om du kan få en MT-pilotprøve og dermed finde ud af, hvad dine mulige besparelser kunne være. 

Kvaliteten af maskinoversættelse – hvilket system er bedst?

Hos Acolad ved vi, hvad det kræver at producere oversættelser af høj kvalitet, og vi vælger vores menneskelige oversættere og MT-maskiner på den baggrund.

Ville vi arbejde sammen med en menneskelig oversætter, der leverer fremragende kvalitet, men som er kendt for at dele kundeindhold på sociale platforme og afsløre forretningshemmeligheder? Eller en, som ikke er i stand til at tilpasse sig de tekniske krav, og som jævnligt begår fejl i XML-struktur og -indhold? Det ville jo være vanvittigt! Og det ville også være helt vanvittigt, hvis du blev hos en leverandør af sprogtjenester, der tillader en sådan adfærd.

Kunne vi dernæst finde på at spørge en enkelt oversætter om at levere oversættelser på alle vores målsprog og inden for samtlige emner? Det ville være mindst lige så vanvittigt.

De samme overvejelser gør sig gældende for MT, og vi har udviklet en fornuftig tilgang til den udfordring: Vi anvender en række kriterier, når det kommer til udvælgelsen af MT-maskiner, og det er ikke alle kriterier, der drejer sig om den sproglige kvalitet – selvom det er en meget vigtig brik i puslespillet. For at anvende maskinoversættelse i vores processer på en sikker og effektiv måde tager vi også fortrolighed, tilgængelighed og bæredygtige tjenesteydelser (inklusive API), samlede omkostninger og systemets generelle robusthed med i overvejelserne.

Vi definerer robusthed som evnen til at producere god lingvistisk kvalitet uden for laboratorieomgivelser, herunder tolerance i forhold til bestemte typer af skrivefejl i udgangsteksten, kreativ formatering og talemåder fra andre sprog i udgangsteksten. Desuden bedømmer vi kvaliteten af integrationen i det relevante oversættelseshukommelsesværktøj.

I sidste ende findes der ikke én løsning, der passer til alle, og der kræves en specifik kontekst for at kunne svare på spørgsmålet om, hvilket MT-system der er bedst. Teknologi udvikler sig hurtigt, og vores foretrukne teknologi fra sidste år er måske ikke det bedste valg i dag. Vi holder os opdateret på den seneste teknologiske udvikling i branchen, så du ikke behøver at være MT-ekspert, og vi holder øje med markedet, så du kan vælge den bedst mulige oversættelsesmaskine til dit behov.

Konklusion

Det viser sig altså, at såkaldte MT-kvalitetsindikatorer såsom BLEU, LEPOR, TER eller PED rent faktisk ikke måler kvaliteten. Men der er gode nyheder: De leverer de KPI'er, som vi skal bruge, når der skal træffes beslutninger om kvalitet.

Praktisk talt foregår vurderingen af den faktiske sproglige kvalitet i en oversættelse, hvad end den er lavet af et menneske eller en maskine, stadig i form af manuelt arbejde. Der findes på nuværende tidspunkt ingen automatiseret kvalitetsscore, og det er netop derfor, det er en fordel at have eksperter til rådighed inden for målsprogene, når det gælder udvælgelsen af det rigtige system og vurderingen af nye teknologier.

På grund af hastigheden af den teknologiske udvikling vil vi sandsynligvis komme til at se flere automatiserede løsninger til at bedømme oversættelseskvaliteten i den nærmeste fremtid. Indtil da har Acolad styr på begivenhedernes gang.

Du kan få mere at vide om MT-kvalitetsindikatorer og teste vores "MT to fit"-tilgang