Mitä konekäännösten laatumittarit todella kertovat?

Konekäännösten laadun arviointiin on monia lähestymistapoja. Lue niistä lisää ja ota selvää, miten ne vaikuttavat omiin käännös- ja lokalisointitarpeisiisi.

Konekääntäminen (machine translation, MT) kasvattaa jatkuvasti suosiotaan. Teknologian kehittyessä konekäännöksistä tulee tarkempia ja laatuun kohdistuu suurempia odotuksia. Käännösasiakkaita kiinnostaa, onko konekäännösten laatu riittävä heidän tarkoituksiinsa vai tarvitaanko lisäksi ihmisasiantuntijoiden jälkieditointia ja tarkistusprosesseja.

Jokaisen jälkieditointia ja kielipalveluja tarjoavan toimijan on määriteltävä, onko niiden mahdollista parantaa käsittelemättömiä konekäännöksiä asiakkaan odotuksia vastaaviksi – ja mihin hintaan työ voidaan toteuttaa. Tämä on todellinen pähkinä purtavaksi, mutta ongelmat voidaan ratkaista oikeilla menetelmillä ja osaamisella. 

On selvää, että konekäännökset eivät aina ole luotettavia ja että käsittelemättömät käännökset vaativat muokkaamista. Mistä siis tietää, helpottavatko konekäännökset työtaakkaa, varsinkin kun tavoitteena on ihmisen tekemiin käännöksiin verrattava laatu? Miten arvioidaan konekäännösten tuottama työajan säästö verrattuna työhön, jonka ihmiskääntäjä on tehnyt alusta asti? Perimmäinen tarkoitushan on säästää aikaa ja vaivaa.

Jotta voisimme vastata edellä esitettyihin kysymyksiin, tarvitsemme tapoja mitata raa'an konekäännöksen laatua. Ihmiset odottavat usein, että konekäännöksestä on saatavana automaattisesti tuotettu arvio sen oikeudesta tai luotettavuudesta – tai vähintäänkin työkaluja, joilla konekäännöksen laatua ja jälkieditointiin tarvittua työmäärää voidaan arvioida. Valitettavasti se ei ole aivan niin yksinkertaista.

Miten käännösten laatua ylipäänsä arvioidaan?

Kun haluamme arvioida konekäännösten laatua, hyvä lähtökohta on tutustua ensin ihmiskäännösten laatuarviointimenetelmiin.

Yleisiä ihmiskäännöksen arviointistandardeja ovat muun muassa Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) ja J2450 Translation Quality Metric. Standardit arvioivat erilaisia laatukriteerejä, kuten kielellistä oikeellisuutta, ymmärrettävyyttä, sujuvuutta, kulttuurillista sopivuutta ja niin edespäin.

Yleensä nämä arviointimenetelmät tuottavat yhdistetyn arvosanan, joka kertoo käännöksen virheiden vakavuudesta ja määrästä suhteessa tekstin pituuteen. Arvosanan käyttötapaa voidaan mukauttaa käyttötarkoituksen mukaan (esim. valitsemalla sopivat kynnysrajat), ja se voi auttaa määrittämään, onko käännös hyvä vai huono – eli sopiiko se tarkoitukseensa vai ei. Kuulostaa hyvältä, eikö?

Kaikkien näiden menetelmien haasteena kuitenkin on, että virheiden havaitsemiseen ja luokittelemiseen tarvitaan aina ihmistarkistajia.

Valitettavasti tämä koskee myös konekäännösten arviointia: tehtävä vaatii manuaalista ihmistyötä.

Onko konekäännösten laadun automaattisesta arvioinnista siis lainkaan hyötyä?

Vastaus on yksinkertainen. Automaattiset arvioinnit ovat hyödyllisiä, mutta hyödyllisyysaste riippuu odotetusta lopputuloksesta.

Haasteet varsinaisen käännöslaadun arvioinnissa eivät katoa kuin taikaiskusta, kun siirrytään ihmisen tekemistä käännöksistä konekäännöksiin. Konekäännösten laatua voidaan myös arvioida monilla mittareilla. Oikea mittari riippuu siitä, mitä haluat saada selville.

Jos tavoitteena on esimerkiksi arvioida, voiko konekäännettyä sisältöä käyttää tietyssä tilanteessa sellaisenaan ilman jälkieditointia, tulee käyttää periaatteessa samoja laadunvarmistuskriteerejä kuin ihmisen tekemille käännöksille. Kielialan asiantuntija tarkastaa käännöksen ja lähdetekstin, luokittelee virheet ja saa niiden pohjalta pistetuloksen. Sen perusteella voi päätellä, onko käsittelemätön konekäännös käyttökelpoinen kontekstissaan. Oikotietä onneen ei ole: jos konekäännetyltä tekstiltä odotetaan varmuudella tiettyä laatutasoa, ihmisasiantuntijan työpanos on välttämätön.

Entä jos vaihdamme kysymystä? Mitä jos tarkoituksena onkin verrata konekäännöstä konekäännökseen? Tavoitteena voi olla esimerkiksi saada yleiskuva yhden konekääntimen suorituksesta muihin konekääntimiin verrattuna tiettyjä testikriteerejä käyttämällä. Vertailevissa arvioissa automaattiseen konekäännösten arviointiin perustuva BLEU-metodi (bilingual evaluation understudy) voi olla paras vaihtoehto.

Entä tärkein jälkieditoituun materiaaliin liittyvä kysymys: säästyykö konekäännöksien editoinnissa resursseja, jos vertailukohtana on ihmisen alusta asti tekemä käännös? Lisäksi tulee pohtia, kuinka suuri säästö on. Jos haluat varmistaa, että toimintasi todellakin on tehokasta, konekäännösten editointietäisyys (post-edit distance, PED) voi olla kaipaamasi arviointimetodi.

Tarkastellaan seuraavaksi BLEU-metodia ja muita samankaltaisia arviointitapoja sekä PED-metodia ja tutustutaan niiden mittaustuloksiin.

BLEU ja vastaavat metodit – vain yksi vastaus voi olla oikein

Konekäännösinsinöörit ovat kehittäneet useita konekäännösten arviointimetodeja, joilla voidaan arvioida konekääntimen toimintaa. Niiden teho perustuu siihen, ettei arvioinnin tekemiseen tarvita ihmistä. Tällaisia arviointityökaluja ovat BLEU (bilingual evaluation understudy eli automaattisten konekäännösten vertaileva arviointi) ja vastaavat metodit, kuten HTER (human-targeted translation error rate eli ihmisen tekemän jälkieditoinnin määrän perusteella laskettava pisteytys) tai LEPOR (length penalty, precision, n-gram position difference penalty and recall, jossa monia arviointiparametreja on tarkennettu entisestään). Niiden antamat vastaukset kuitenkin poikkeavat ihmisarvioijan mahdollisista vastauksista.


Miten BLEU toimii?

BLEU perustuu siihen oletukseen, että tekstin voi kääntää hyvin vain yhdellä tavalla. Konekäännöksen laatua verrataan siihen, miten hyvin konekäännös vastaa tuota optimikäännöstä. "Hyvää käännöstä" kutsutaan referenssikäännökseksi. Siihen kuuluu lähtö- ja kohdekielinen malliteksti. Referenssikäännös on siis ihmisen aiemmin tekemä käännös, joka on arvioitu hyvälaatuiseksi.

Arviointi suoritetaan suoraan referenssitekstiin vertaamalla. Yksi tai useampi konekäännin kääntää lähtötekstin, ja algoritmi laskee referenssikäännöksen ja eri konekäännöksien väliset erot. Lopuksi saadaan ns. BLEU-pisteytys, joka annetaan joko lukuna 0:n ja 1:n välillä tai väliltä 0–100 %. Mitä korkeampi BLEU-pistemäärä, sitä paremmin tekstit vastaavat toisiaan. 

 

BLEU-metodin rajoitukset

BLEU-metodi ja vastaavat mittarit osaavat laskea samankaltaisuuksia hyvin edistyneillä tavoilla. Niiden suurin ongelma on oletus, että kunkin tekstin voi kääntää hyvin vain yhdellä tavalla. Kielen ammattilaiset ovat kuitenkin yleisesti sitä mieltä, että lähtöteksteille voi olla useita sopivia käännösratkaisuja.

BLEU ei varsinaisesti mittaa käännöslaatua, vaan yksittäisen konekääntimen kykyä imitoida tiettyjä referenssitekstejä.

On helppoa ymmärtää, että tietyllä konekääntimellä saadut BLEU-pisteet vaihtelevat referenssitekstin mukaan. On myös selvää, että huonon referenssitekstin pohjalta lasketut BLEU-pisteet eivät kerro mitään konekäännöksen laadusta. Lisäksi pistemäärään vaikuttavat käytetyn referenssitekstin pituus, mitattavien kielten käyttämät merkistöt ja muut tekijät. Ei siis aivan yksinkertaista.

BLEU ei myöskään tuota laadukkaita analyysejä uusista teksteistä, sillä testin suorittamista varten tarvitaan valmis (ihmisen tekemä) referenssiteksti. Jos käännöksestä ei löydy myös ihmisen kääntämää versiota, ei BLEU sovellu sen laadun arviointiin. BLEU-analyysiä ei siis voi soveltaa ennakoivasti.

Se on kuitenkin toimiva työkalu konekääntimien kouluttamisen vaikutusten arviointiin. Sitä voi jossain määrin käyttää myös eri konekääntimien toiminnan vertailuun. Tällöin on tärkeää huomioida, että BLEU-pisteet eivät kerro suoraan konekääntimestä vaan pikemminkin testiskenaariosta. Samalla käännöskoneella tehdyt käännökset voivat saada erilaiset pisteet referenssikäännöksestä riippuen.

 

Arviomme BLEU:sta

BLEU-pisteytys ja ihmisen tekemä arviointi antavat useimmiten samankaltaisia tuloksia konekäännöksen laadusta, mutta BLEU ei varsinaisesti kerro mitään yksittäisen tekstin laadusta. Pisteytys vain kertoo, kuinka todennäköisesti referenssikäännöksen kaltainen teksti on oikea. Koko ajan saadaan myös lisää näyttöä siitä, että BLEU saattaa olla tulossa hyödyllisen käyttöikänsä päähän jopa rajoitetussa käytössä.

Konekäännösten editointietäisyys – mittauksia tosielämän olosuhteissa

Miten PED toimii?

Konekäännösten editointietäisyydellä (PED) mitataan, miten paljon konekäännettyä tekstiä täytyy editoida, ennen kuin se täyttää laatuodotukset. Tärkein ero BLEU-metodiin on, että vertailun osana oleva ihmiskäännös perustuu konekäännökseen. On siis todennäköisempää, että konekäännös ja ihmisen tekemä käännös ovat samankaltaiset tai samanlaiset. Tämä taas johtuu siitä, että kokeneet jälkieditointia tekevät kääntäjät eivät muuta konekäännöksistä mitään ylimääräistä. Jos kääntäjä siis on hoitanut työnsä kunnialla, PED-tulos antaa BLEU-analyysiin verrattuna paremman kokonaiskuvan konekäännöksen soveltuvuudesta jälkieditointiin.

Voiko siis kuka tahansa kieliasiantuntija, jolla on kokemusta jälkieditoinnista, tehdä PED-analyysiin tarvittavaa jälkieditointia? Ei aivan. Olennaista on se, että kääntäjä todella ymmärtää asiakkaan laatuodotukset tekstin suhteen. Konekäännös voi kuulostaa luontevalta ja olla suhteellisen virheetön merkitykseltään, mutta se ei välttämättä täytä laatuvaatimuksia. Saattaa olla, että asiakkaan käyttämää sanastoa tai tyyliä ei ole noudatettu, tekstin merkkimäärä saattaa ylittää pituusrajoitukset tai muotoilutiedot ovat kadonneet. Lyhyesti sanoen: kieliasiantuntijalla on oltava sekä jälkieditointikokemusta että ymmärrystä asiakkaan tarpeista.

PED tarvitsee toimiakseen tietoa oikeista olosuhteista. Luotettavia lukemia saadaan, kun editointietäisyys lasketaan ainoastaan laatuvaatimukset täyttävien jälkieditoitujen tekstien perusteella. Algoritmi laskee käsittelemättömän käännöksen ja jälkieditoidun käännöksen erot ja antaa arvon jokaiselle segmentille ja tekstinäytteelle. Arvo kertoo, miten suuri osuus tekstistä on käsittelemätöntä käännöstä. Lähtöarvo on 100 % (kääntäjä ei tehnyt muutoksia), ja jokainen muutos laskee arvoa. Korkea PED-arvo osoittaa, että konekääntäminen parantaa kääntäjän työn tehokkuutta merkittävästi.

 

Miten PED-arvo heijastaa jälkieditointiin käytettävää vaivaa?

Nyrkkisääntö on, että mitä korkeampi PED-arvo, sitä vähemmän kääntäjän tarvitsee nähdä vaivaa. Tosin arvon on ylitettävä tietty kynnys, ennen kuin sen voi todella sanoa tehostavan työtä. Periaate on sama kuin käännösmuistiosumissa. Jos kokonais-PED-arvo tietylle tekstityypille alittaa kynnyksen jatkuvasti, konekääntäminen ei säästä aikaa.

Tarkoittaako korkea PED-arvo sitä, että kääntäjän ei tarvitse nähdä vaivaa ja että maksat turhasta, jos PED on lähes sadassa prosentissa? Todellisuus on, että jos tarvitset jälkieditointia, sillä on hintansa. On tärkeää ymmärtää, että vaikka konekäännöksen editointietäisyysarvo olisi hyvin suuri, ei kääntäjän työpanos ole nolla. Kääntäjä on tarkistanut kohdetekstin kokonaisuudessaan ja verrannut sitä lähtötekstiin, varmistanut, että konekääntimen käyttämät termit ovat oikein, tehnyt mahdollisia lisätutkimuksia tai pyytänyt tarkennuksia, ja paljon muuta. Siksi jälkieditointiin kuluu aina työaikaa, vaikka tekstiin ei tehtäisi juuri mitään muutoksia. Tätä voisi verrata siihen, että pyytää sairausdiagnoosistaan toisen mielipiteen. Vaikka kumpikin lääkäri tulisi samaan lopputulokseen, joutuvat molemmat lääkärit tarkastamaan potilaan yhtä huolellisesti. 

 

Luotettavat arviot jälkieditoinnin työläydestä

Riittävän suurista määristä samankaltaista tekstiä saadut PED-arvot antavat luotettavan kuvan siitä, miten paljon työtä jälkieditointi vaatii. Lisäksi voidaan määritellä, kuinka paljon hyötysuhde paranee. Pienet satunnaisnäytteet eivät sovi tämäntyyppiseen analyysiin, sillä niiden pohjalta saatu PED-tulos voi olla liian positiivinen tai negatiivinen. Tällainen tulos ei lopulta kuvaa hyvin normaaliolosuhteiden keskimääräisiä tuloksia. Onneksi sopivilla määrillä testaaminen ei lisää normaalin käännösprosessin kuluja. Tämä kaikki on meille tuttua, joten ota rohkeasti yhteyttä yhteyshenkilöösi Acoladissa, pyydä konekäännöspilottijakson järjestämistä ja opi laskemaan säästöpotentiaalisi. 

Konekäännöslaatu – mikä järjestelmä on paras?

Acoladissa tiedetään, mitä laadukkaiden käännösten tuottamiseen tarvitaan. Sen perusteella valitsemme niin ihmiskääntäjämme kuin käyttämämme konekääntimet.

Tekisimmekö yhteistyötä sellaisen ihmiskääntäjän kanssa, joka tekee loistavaa jälkeä mutta tunnetaan asiakkaidensa sisällön ja yrityssalaisuuksien jakamisesta sosiaalisessa mediassa? Entä sellaisen kääntäjän, joka ei noudata teknisiä vaatimuksia ja jonka käännöksissä on säännöllisesti virheitä XML-rakenteen tai -formaatin noudattamisessa? Sehän olisi aivan hölmöä! Eikä olisi sinultakaan viisasta jäädä tällaista käytöstä sietävän kielipalveluiden tarjoajan asiakkaaksi.

Ja pyytäisimmekö yhtä kääntäjää tekemään kaikkien kohdekielien kaikki käännökset tekstin aiheesta riippumatta? Edelleenkin varsin hölmöä.

Samat asia tulee ottaa huomioon konekääntämisessä, joten olemme kehittäneet tavan vastata sen tuomiin haasteisiin ilman hölmöilyä. Sovellamme tiettyjä kriteereitä konekääntimen valintaan, eivätkä kaikki kriteereistä liity pelkästään käännösten kielelliseen tasoon (vaikka sen merkitys onkin olennainen). Haluamme, että konekäännökset ovat turvallinen ja tehokas osa prosessejamme, joten otamme huomioon myös luottamuksellisuuden, kestävän palvelutarjonnan saatavuuden (API mukaan lukien), kokonaiskulut ja järjestelmän yleisen kestävyyden.

Määrittelemme kestävyyden kykynä tuottaa tasokkaita käännöksiä muuallakin kuin testiolosuhteissa. Tähän kuuluu kyky sietää lähtötekstin kirjoitusvirheitä, osittaisia virkkeitä, luovaa muotoilua ja vieraskielisiä fraaseja lähtökielisissä tiedostoissa. Lisäksi arvioimme integroinnin laatua valitussa käännöstyökalussa.

Ei ole olemassa ratkaisua, joka sopisi kaikille ja kaikkiin tilanteisiin. "Parhaan" konekäännösjärjestelmän löytämiseen tarvitaankin konkreettista kontekstia. Teknologia kehittyy huimaa vauhtia, ja viime vuoden suosituimmat teknologiset ratkaisut eivät välttämättä ole paras ratkaisu tänään. Seuraamme alan merkittävimpiä suuntauksia, jotta sinun ei tarvitsisi olla konekäännöksien asiantuntija. Tarkkailemme markkinoita jatkuvasti, jotta voit valita omaan tarpeeseesi parhaiten soveltuvan konekääntimen.

Loppusanat

Vaikuttaa siis siltä, että konekäännösten laatumittarit, kuten BLEU, LEPOR, TER tai PED, eivät mittaa laatua itsessään. Hyvä uutinen on se, että niiden pohjalta saadaan suorituskykyindikaattoreita, jotka ohjaavat meitä tekemään laadukkaita päätöksiä.

Käytännössä käännöslaadun varsinainen mittaaminen on edelleen ihmisen suoritettavaa työtä, oli kyse sitten kääntäjän tai konekääntimen tuottamasta tekstistä. Tällä hetkellä automaattista laatupisteytystä ei ole saatavilla, ja siksi on tärkeää, että käytössämme ovat oikeat asiantuntijat kaikissa olennaisissa kohdekielissä. Tämä tarjoaa suuren edun oikean järjestelmän valinnassa ja uuden teknologian arvioinnissa.

Teknologinen kehitys on niin nopeaa, että jo lähitulevaisuudessa saatetaan nähdä automaattisemmin toimivia ratkaisuja käännöslaadun arviointiin. Tätä odotellessa Acolad pysyy tilanteen tasalla.

Tutustu tarkemmin konekäännösten laatumittareihin ja kokeile, millaisen konekääntimen löydämme tarpeisiisi.