Vad innebär kvalitet inom maskinöversättning (MT)?

Få en inblick i de olika metoderna för att utvärdera kvaliteten hos en maskinöversättning – och vad de säger om era behov inom översättning och lokalisering.

Maskinöversättning (MT) blir allt mer populärt och sofistikerat i takt med att tekniken mognar, och förväntningarna på kvaliteten ökar i motsvarande grad. Frågan som översättningskunder ställs inför är om kvaliteten hos MT är tillräcklig för deras syften, eller om det även krävs efterredigering och granskning av mänskliga experter.

Alla leverantörer av efterredigering och andra språktjänster måste bedöma om och hur de kan förbättra resultaten från en rå maskinöversättning så att de motsvarar kundernas förväntningar – och till vilken kostnad. Det är ett problem som kan vara knepigt att lösa, men det kan definitivt övervinnas med rätt metodik och kunskap. 

Vi vet att MT inte alltid är tillförlitligt och att den råa produkten behöver ses över, men hur vet vi om det faktiskt kommer att bespara oss arbete när vi måste upprätthålla mänskliga kvalitetsstandarder? Hur avgör man storleken på arbetsbesparingen jämfört med att göra en mänsklig översättning från början? Vi vill inte gärna slösa med tid och kraft.

Därför behöver vi metoder för att utvärdera kvaliteten hos maskinell råöversättning. De flesta människor förväntar sig att MT, en automatiskt genererad översättning, ska åtföljas av en automatiskt genererad uppskattning av översättningens noggrannhet eller tillförlitlighet, eller att det åtminstone finns verktyg som automatiskt bedömer MT-kvaliteten och ger rekommendationer om hur mycket efterredigering som behövs. Tyvärr är det inte så enkelt.

Hur kan man överhuvudtaget utvärdera översättningskvalitet?

För att få en bättre förståelse för hur man kan utvärdera kvaliteten hos maskinöversättning ska vi först titta på hur man för närvarade utvärderar kvaliteten hos mänsklig översättning.

Bland standarderna för mänsklig översättning kan nämnas Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) samt J2450-standarden för översättningskvalitet. Dessa standarder används för att utvärdera språkliga kvalitetskriterier som korrekthet, begriplighet, flyt, kulturell lämplighet och så vidare.

Dessa utvärderingsmetoder utmynnar vanligen i ett sammanlagt poängvärde som återspeglar antalet misstag och dessas allvarlighetsgrad i förhållande till den givna textens längd. Sådana poängvärden kan finjusteras för att passa det aktuella användningsområdet (exempelvis genom att justera trösklarna), så att man kan bedöma om en översättning är bra eller dålig – med andra ord, om den fyller sitt syfte eller ej. Så långt allt väl.

Men oavsett vilken standard vi väljer – och hur vi än sätter våra trösklar – måste uppgiften att upptäcka och klassificera fel enligt dessa indikatorer fortfarande åläggas mänskliga korrekturläsare.

Och nu kommer den dåliga nyheten som du suttit och väntat på: Denna uppgift förblir en mänsklig, manuell uppgift även vid bedömning av maskinell översättningskvalitet.

Och vad är det i så fall för mening med automatisk poängsättning av maskinell översättningskvalitet?

Svaret är enkelt: Den automatiska poängsättningen är användbar – men hur pass användbar den är beror på vilket svar du förväntar dig.

Svårigheten med att bedöma faktisk översättningskvalitet trollas inte bort när man går från mänsklig till maskinell översättning. Dessutom finns det olika sätt att mäta maskinöversättningens kvalitet, och vilket man ska använda beror på vad man vill veta.

Om du till exempel vill utvärdera om det maskinöversatta innehållet kan användas utan efterredigering i ett visst användningsfall, använder du i praktiken samma kvalitetsutvärdering som för en mänsklig översättning: En kvalificerad språkexpert granskar översättningen och dess källa, klassificerar fel och får på så sätt fram en poäng som visar om den råa maskinöversättningen är godkänd eller underkänd i det relevanta sammanhanget. Det finns inga magiska genvägar: Om ni vill vara säkra på att en viss maskinöversatt text uppfyller era kvalitetsförväntningar måste ni använda er av mänsklig granskning.

Men om ni har en annan fråga då? Om ni till exempel vill jämföra MT med MT – det vill säga för att få en allmän uppfattning om hur väl en viss översättningsmotor fungerar för en given testuppsättning jämfört med andra motorer? För sådana jämförande utvärderingar kan metoden med tvåspråkig utvärdering (BLEU) passa era behov bäst.

Slutligen har vi kommit fram till den viktigaste frågan när det gäller efterredigering: Sparar vi arbete i översättningen genom att efterredigera maskinöversättning jämfört med att översätta från grunden? Och i så fall, hur mycket? Vill ni vara säkra på att tekniken inte kostar mer än den smakar, kan så kallad post-edit distance (PED) vara mätmetoden för er.

Låt oss ta en närmare titt på BLEU, PED och liknande metoder för att få en uppfattning om vad de faktiskt mäter.

BLEU och liknande metoder – det finns bara ett rätt svar

Den tvåspråkiga utvärderings-metoden BLEU och liknande metoder som HTER (Human-targeted Translation Error Rate) och LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) har utvecklats av MT-ingenjörer som ett snabbt och billigt sätt att utvärdera justeringar av översättningsmotorn, eftersom de inte kräver en mänsklig utvärderare. Men det betyder också att de inte ger samma svar som en mänsklig utvärderare kan ge.


Så fungerar BLEU

BLEU bygger på antagandet att det endast finns en rätt översättning av en text, och att kvaliteten är ett mått på hur lik maskinöversättningen är den rätta översättningen. Den ”rätta översättningen” kallas referensöversättning och består av text på både källspråk och målspråk. Mer konkret så handlar det om ett stycke text som har översatts av en människa och som anses hålla god kvalitet.

Mätningarna görs därför utifrån just denna referenstext: Källtexten översätts av en eller flera MT-motorer, och en algoritm beräknar skillnaden mellan varje enskilt MT-resultat och referensöversättningen. Resultatet är den så kallade BLEU-poängen, som uttrycks som ett tal mellan 0 och 1, eller mellan 0 % och 100 %. Ju högre BLEU-poäng, desto mer lika är de två texterna. 

 

Bristerna med BLEU

Även om den här metoden beräknar likhet på ett ganska sofistikerat sätt är det primära problemet med BLEU och liknande mått antagandet att det bara finns en rätt översättning av en text. Professionella översättare vet emellertid att det kan finnas flera fullgoda översättningar av en given källtext.

BLEU mäter alltså egentligen inte översättningens kvalitet, utan snarare i vilken mån en viss motor kan efterlikna vissa referenstexter.

BLEU-poängen för en och samma MT-motor kommer därmed att variera beroende på vilken referenstext som används. Det är också lätt att inse att en BLEU-poäng som erhållits med en referenstext av låg kvalitet inte alls återspeglar MT-kvaliteten. Poängen påverkas även av textprovets storlek, teckenuppsättningen för de ingående språken och andra faktorer. Nu verkar det hela inte så enkelt längre, eller hur?

BLEU kan dessutom inte utvärdera kvaliteten hos nya texter, eftersom detta kräver ett testscenario med en etablerad (mänskligt översatt) referenstext. Man kan inte använda BLEU för att mäta kvaliteten på maskinöversättningar som inte redan har översatts av en människa, vilket gör BLEU olämpligt för prediktiva tillämpningar.

Däremot är BLEU ett godtagbart instrument för att mäta effekten av motorträning och – i viss mån – för att jämföra motorer från olika MT-leverantörer. Det är emellertid viktigt att notera att BLEU-poängen inte är en inneboende egenskap hos en MT-motor, utan snarare hos ett testscenario. Samma motor kommer att få olika poäng för olika referensöversättningar.

 

Vad blir då omdömet för BLEU?

Även om BLEU oftast korrelerar med det mänskliga omdömet gällande MT-kvalitet, kan metoden egentligen inte ge svar på vilken kvalitet en given text håller. BLEU anger bara hur troligt det är att en text som liknar referensöversättningen också är korrekt. Utöver det finns det alltmer som tyder på att BLEU närmar sig slutet på sin användbara livslängd även för detta begränsade användningsområde.

PE Distance (PED) – Mätning under verkliga förhållanden

Så fungerar PED

Måttet post-edit distance (PED) mäter den mängd redigering som en maskinöversatt text kräver för att uppfylla kvalitetsförväntningarna. Den viktigaste skillnaden jämfört med BLEU är att den mänskliga referensöversättningen faktiskt görs baserat på en maskinöversättning, vilket ökar sannolikheten för att maskinöversättningen och den mänskliga översättningen ska vara lika eller identiska. Det beror på att översättare med gedigen bakgrund inom efterredigering gör få onödiga ändringar i maskinöversatt text. Förutsatt att översättarna gjort sitt jobb korrekt speglar PED en maskinöversättnings lämplighet för efterredigering mycket bättre än BLEU.

Kan varje lingvist med erfarenhet av efterredigering göra efterredigeringen för en PED-analys? Inte riktigt. Den avgörande faktorn är att översättaren måste förstå vilka förväntningar kunden har gällande textens kvalitet. En maskinöversättning kan låta flytande, till synes fri från fel som påverkar betydelsen nämnvärt, och ändå inte uppfylla kvalitetskraven. Det kan exempelvis bero på att kundspecifik terminologi eller stil inte har följts, att texten överskrider givna längdbegränsningar eller att formateringsinformation har gått förlorad. Kort sagt behövs det en översättare både med erfarenhet av efterredigering och med kännedom om kundens specifika krav.

PED kräver verkliga förhållanden för att få fram tillförlitliga siffror, och avståndet efter redigering (post-edit distance) kan bara beräknas utifrån en efterredigering som uppfyller kvalitetsförväntningarna. En algoritm beräknar skillnaden mellan den råa och den efterredigerade maskinöversättningen, och anger ett värde per segment och per provtext. Värdet indikerar hur stor procentandel av råöversättningen som återanvänts av översättaren, från 100 % (översättaren gjorde inga ändringar i segmentet eller texten) och nedåt. Höga PED-poäng visar på en verklig effektivitetsvinst för översättaren.

 

Hur kopplas PED-poäng till behovet av efterredigering?

Tumregeln är att högre PED-poäng betyder mindre behov av efterredigering. Men precis som med översättningsminnen måste procentvärdet passera en viss tröskel för att det ska handla om några verkliga effektivitetsvinster. Om det totala PED-värdet för en viss texttyp konsekvent ligger under denna tröskel så ger maskinöversättning inga tidsvinster.

Betyder då ett högt PED-värde att översättaren inte behövde anstränga sig, och måste man betala för efterredigering om PED ligger nära 100 %? Svaret är: Vill man ha efterredigering så kostar det. Det är viktigt att förstå att även med ett mycket högt PED-värde är översättarnas insats inte lika med noll. De har fortfarande utfört en fullständig granskning av måltexten och jämfört den med källtexten, validerat att terminologin som tillämpas av MT är den rätta, eventuellt gjort ytterligare efterforskningar eller bett om förtydliganden, och så vidare. Därför är arbetet med efterredigering aldrig noll, även när det nästan inte gjorts några ändringar. Man kan jämföra med när en patient ber om ett utlåtande från en annan läkare: Det faktum att båda läkarna kommer till samma slutsats betyder inte att den andra läkaren inte behövde undersöka patienten. 

 

Tillförlitliga prognoser för arbetet med efterredigering

Genom att bedöma PED-värden för en tillräckligt stor mängd likartade texter kan man få en tillförlitlig indikation på hur stor insats som krävs och sedan kvantifiera effektivitetsvinsterna. Små anekdotiska prover lämpar sig inte för denna typ av analys, eftersom de kan resultera i PED-poäng som är alltför höga eller låga och i slutändan inte representativa för de genomsnittliga verkliga resultaten. Lyckligtvis betyder testning med lämpliga textmängder inte att kostnaderna för den normala översättningsprocessen behöver öka. Vi vet vad vi sysslar med på det här området, så tveka inte att be din kontakt på Acolad om en maskinöversättningspilot och få hjälp att räkna ut hur mycket du kan spara. 

Maskinöversättningskvalitet – vilket system är bäst?

På Acolad vet vi vad som krävs för att producera översättningar av hög kvalitet, och vi väljer våra mänskliga översättare och MT-motorer därefter.

Skulle vi arbeta med en mänsklig översättare som levererar överlägsen kvalitet men som brukar lägga ut kundernas innehåll på sociala medier eller avslöja affärshemligheter? Eller en översättare som inte kan uppfylla tekniska krav och som brukar introducera fel i XML-strukturer och format? Nej, det vore ju helt galet! Lika galet skulle det vara att fortsätta arbeta med en språkleverantör som tillåter ett sådant beteende.

För att ta ett annat exempel, skulle vi be en enstaka översättare att utföra översättningar till alla våra målspråk, inom alla ämnesområden? Även det vore galet.

Samma överväganden gäller för maskinöversättningar, och till den utmaningen har vi utvecklat ett avgjort icke-galet förhållningssätt. När det handlar om att välja översättningsmotor tillämpar vi en rad kriterier, som inte allihop handlar om språklig kvalitet på utdata – även om det är en avgörande pusselbit. För att på ett säkert och effektivt sätt kunna använda maskinöversättning i våra processer gör vi även överväganden gällande sekretess, att kunna erbjuda ett hållbart tjänsteutbud (inklusive API:er), totalkostnad samt generell robusthet hos systemet.

Vi definierar robustheten som förmågan att producera god språklig kvalitet även utanför språklabbet. Det innefattar bland annat tolerans för stavfel, ofullständiga meningar, kreativ formatering och fraser på främmande språk i källtexten. Dessutom bedömer vi kvaliteten på integrationen med det aktuella översättningsminnet.

Det finns faktiskt ingen universallösning, utan det måste till ett konkret sammanhang för att kunna säga vilket MT-system som är ”bäst”. Tekniken utvecklas snabbt, och de tekniker vi föredrog i fjol kanske inte är de bästa alternativen idag. Vi hänger med i utvecklingen inom branschen så att ni inte behöver vara experter på MT, och vi bevakar marknaden för att ni ska kunna välja den bästa möjliga motorn för ert scenario.

Slutsats

Det visar sig alltså att så kallade MT-kvalitetsindikatorer som BLEU, LEPOR, TER och PED faktiskt inte mäter kvaliteten som sådan. Men de är ändå värdefulla verktyg eftersom de ger oss de nyckeltal som vi behöver för att kunna fatta kvalitetsrelaterade beslut.

I praktiken är det fortfarande ett manuellt arbete att mäta den faktiska språkliga kvaliteten hos en översättning – oavsett om den är utförd av människa eller maskin. Det finns i nuläget inget som kan kallas automatiserad kvalitetsbedömning, och därför är det en stor fördel att ha rätt experter inom alla relevanta målspråk till hands när man ska välja rätt system och utvärdera ny teknik.

Men med tanke på den snabba tekniska utvecklingen kan vi förvänta oss fler automatiserade lösningar för utvärdering av översättningskvalitet inom en snar framtid. Under tiden har Acolad full kontroll över situationen.

Ta reda på mer om kvalitetsindikatorer för MT och pröva vår ”MT to fit”-metod