5. juni 2024

Maskinoversættelse vs. GenAI: Hvad er bedst til oversættelse?

Neural maskinoversættelse eller LLM-modeller: Hvilken løsning giver de bedste resultater? Se her, hvad Acolad peger på som den klare vinder.

Oversættelsesbranchen udvikler sig med hidtil uset hastighed takket være de hurtige fremskridt inden for kunstig intelligens. Denne udvikling har fremprovokeret et brændende spørgsmål: Hvilken metode er mest effektiv til oversættelse, neural maskinoversættelse (NMT) eller de nyere LLM-modeller (Large Language Models)? Vores eksklusive analyse giver direkte indblik i, hvilken teknologi der klarer sig bedst: NMT eller LLM.

Ved hjælp af en række evalueringsstandarder og testdatasæt udforsker vi styrkerne og svaghederne ved hver teknologi, samt hvordan de påvirker oversættelseskvaliteten, hvor effektive de er, og hvordan de anvendes i praksis. Målet er at finde ud af, hvilken løsning der egner sig bedst til specifikke anvendelsesområder. Læs med for at få indblik i analysens resultater.

Vigtigste pointer

Overordnet set viste vores analyse, at en godt trænet NMT-model klarer sig bedre end generativ AI på langt de fleste parametre.

Bedre oversættelseskvalitet

NMT opnår en 13 % højere BLEU-score sammenlignet med den gennemsnitlige score for testede LLM-modeller.

Bedre kontekstuel nøjagtighed

NMT var 4 % bedre i COMET-QE, selvom LLM-modeller stadig genererer acceptable lingvistiske resultater, der rammer 90 %-percentilen eller derover.

Mindre omfattende efterredigering

NMT har en 16 % lavere PED-score (Post-Edit Distance) end GPT-4, som er den LLM-model, der har fået de bedste resultater. Derudover afslører TER-raten (Translation Edit Rate) en fordel på 35 %, hvilket betyder, at færre rettelser er nødvendige med NMT sammenlignet med LLM-modeller.

Metodologi

Analysen blev foretaget af Acolad Labs og bygger på indblik fra en tidligere fase med indhold fra den rigtige verden for at sikre praktisk relevans. Undersøgelsen består af to hoveddele: Den første del fokuserer udelukkende på automatiseret oversættelse, hvor neural maskinoversættelse (NMT) og Large Language Models (LLM) evalueres uden menneskelig efterredigering. Den anden del involverer menneskelig ekspertise, hvor professionelle lingvister gennemlæser og forfiner de maskingenererede oversættelser. I løbet af denne proces evaluerer de kvaliteten og vurderer effekten af et samarbejde mellem mennesker og AI. Den menneskelige gennemgang blev foretaget af en tredjepartsudbyder af sprogtjenester for at sikre en uafhængig evaluering.

Denne fase inkluderede forskellige sprog, herunder fransk, rumænsk, svensk og kinesisk. Et forbedret prompt-bibliotek baseret på tidligere læringer blev anvendt i tillæg til bedre instruktioner om terminologi og stil til AI-modeller. Dette inkluderede teknikker til at rydde op i termlister fra maskinoversættelse samt til at skrive effektive prompts. En bredere sammenligning på tværs af AI-oversættelseslandskabet blev introduceret, og flere forskellige neural maskinoversættelsessystemer og LLM-modeller blev evalueret.

Denne omfattende tilgang gjorde det muligt at præsentere en detaljeret sammenligning af AI-løsninger til virksomheder.


Del 1

Evaluering af automatiseret oversættelse

For at få en komplet analyse af den automatiserede oversættelse inkluderede de evaluerede systemer følgende:

  • En forudtrænet neural oversættelsesmaskine
  • En LLM-model tilgået via en skræddersyet API til en AI-platform
  • Forskellige LLM-modeller, herunder én, der var trænet med omfattende parametre, og en anden, der fokuserede på databehandling i stor skala: OpenAIs ChatGPT-4 (Turbo), Mistral (Large), Llama 2 (70b) og Acolads LLM. 

Analysen anvendte indhold fra den virkelige verden, der indeholdt formatering, in-line tags og bestemt terminologi. Med andre ord en god repræsentation af den type indhold, der ofte sendes til oversættelse. Dette indhold blev forudbehandlet og analyseret gennem vores Translation Management System (TMS) på almindelig vis. Herefter blev sammenligninger fra de automatiserede outputs sammenholdt med professionelt oversat indhold af lingvister med kendskab til det indholdsdomæne, der blev testet.

LLM-modellerne blev bedt om at begrænse deres output til specifik terminologi og stil, samtidig med at vi anvendte andre teknikker, herunder prompt-abstraktioner, med henblik på at forbedre LLM-outputtet.  Det er vigtigt at bemærke, at LLM-modeller fra forskellige udbydere krævede forskellige prompting-strategier, især når det havde med indholdets tekniske struktur at gøre.

Resultaterne fra NMT, LLM-modellerne og det professionelt oversatte indhold blev til sidst kørt igennem en række branchestandarder:

BLEU (Bilingual Evaluation Understudy): En udbredt standard, der sammenligner, hvor tæt en maskinoversættelse er på en menneskelig oversættelse af høj kvalitet (hvor mange ordsekvenser, der matcher).

chrF (Character Level F-score): Mens BLEU evaluerer ligheder på ordniveau, kigger chrF på ligheder mellem det maskingenererede output og den professionelle oversættelse med henblik på at give en overordnet karakter.

COMET (Crosslingual Optimized Metric for Evaluation of Translation): Modsat BLEU og chrF, der bygger på statistiske sammenligninger, bruger COMET neurale netværk til at forudsige, hvordan mennesker ville evaluere en maskinoversættelse.

PED (Post-Edit Distance): Denne standard måler, hvor stor en indsats det kræver at forvandle det maskinoversatte output til en menneskelig oversættelse af høj kvalitet.

TER (Translation Edit Rate): TER minder om PED, men fokuserer på antallet af rettelser, der er nødvendige for at opnå et perfekt match med en referenceoversættelse.

For sprogparret engelsk-fransk slog Acolads NMT tre af de store AI-baserede LLM-modeller: OpenAIs ChatGPT-4 (Turbo), Mistral (Large), Llama 2 (70b) og vores egen LLM, der var lidt af et eksperiment.

Acolads NMT-model scorede højest i tre store evalueringsstandarder: BLEU, chrF og COMET. 

Den nyligt opdaterede franske NMT-maskine klarede sig også bedst i PED- og TER-standarderne (her er en lavere score bedre end en høj score), der måler antallet af nødvendige rettelser.

Som tidligere nævnt klarede LLM-modellerne sig godt i COMET-standarden, der anses for at være en god teknik til at måle, hvor naturligt en tekst flyder. Her ramte LLM-modellerne 90 %-percentilen eller derover. Dette peger på, at LLM-modellerne har en fremtid inde for oversættelse og indholdsproduktion, især for mere udbredte sprog som fransk. Det er dog ikke sikkert, at de høje COMET-scorer lever op til kundens forventninger, hvad angår nøjagtighed samt brugen af korrekt terminologi og stil.

Resultaterne for engelsk og svensk var mere eller mindre de samme – her klarede NMT sig bedre end de store LLM-modeller over hele linjen.

For sprogparret engelsk-kinesisk (forenklet) klarede NMT-maskinen sig bedre på tværs af alle standarder, med undtagelse af BLEU. Logografiske sprog som kinesisk fortsætter med at give blandede resultater, men med forbedret tokenisering (hvor sætninger brydes ned til mere spiselige størrelser, f.eks. ord eller under-ord) vil kommende modeller med stor sandsynlighed give bedre resultater.  Det er også værd at nævne, at nogle eksperter argumenterer for, at COMET er en mere brugbar kvalitetsstandard.

I vores sidste testsprog, rumænsk, klarede OpenAIs ChatGPT-4 sig en anelse bedre end NMT-modellen på tværs af alle standarder, selvom resultaterne var ret ens. Vores teams vil bruge disse resultater til yderligere at forbedre denne maskinoversættelsesmodel. Ligesom det er tilfældet med alle NMT-systemer, skal sprogmodellerne opdateres og optimeres over tid.

Men det er værd at bemærke, at LLM-modeller kan give andre uventede resultater, selvom de scorer højere på tværs af kvalitetsstandarder. Det ser vi nærmere på senere, når vi har gået mere i dybden med disse kvalitetsanalyser.


Del 2

Gennemgang af professionel lingvist

Udover at evaluere de fuldt ud automatiserede oversættelser ønskede vi at inkorporere en HITL-process (Human-in-the-Loop). Formålet var at sikre en omfattende evaluering af oversættelseskvaliteten. Alle testoversættelser blev sendt til lingvister, der var blevet oplært i den givne kunde, og oversættelserne blev præsenteret som en blindtest for at sikre en neutral evaluering. Lingvister reevaluerede det efterredigerede maskinoversatte indhold, der blev leveret til kunden, og de udfyldte detaljerede scorecards (fem pr. sprog) med analyser på segmentniveau og kommentarer.

HITL-vurderingerne afslørede, at selvom LLM-modeller kan producere acceptable oversættelser, var der stadig betydelige fejl, der krævede menneskelig indblanding. NMT-systemerne viste bedre resultater, når det kom til antal nødvendige rettelser i efterredigeringsfasen – deres PED-score og TER-rate var lavere (hvilket er positivt) sammenlignet med LLM-modeller som GPT-4. HITL-vurderingen fremhævede forskellige fejlrater på tværs af forskellige sprog. Svensk præsenterede eksempelvis flere udfordringer og større fejlrater sammenlignet med andre sprog, herunder fransk. Dette peger på, at menneskelig gennemgang er særligt nødvendig, hvis sproget er mere komplekst eller ikke bliver oversat så ofte.

Transformer dine oversættelser med AI-præcision: Oplev Acolads automatiserede workflows

Hvad betyder dette for fremtiden for LLM-modeller og maskinoversættelse?

Når vi kigger ind i en fremtid, hvor LLM-modeller bliver mere og mere sofistikerede, ser det i øjeblikket ud til, at NMT-modeller generer et bedre output, der er nemmere at efterredigere for at opnå høj kvalitet, især når det kommer til indhold fra den virkelige verden, der behandles i klassiske TMS-systemer. 

Det er også vigtigt at nævne, at godt trænede NMT-modeller (der bruger indhold inden for specifikke domæner og en bestemt terminologi) ikke præsenterer nogle af de tekniske udfordringer og spidsfindigheder, der ofte ses ved brug af generativ AI.

NMT tilbyder større forudsigelighed, især over tid og på tværs af mindre udbredte sprog. Tidligere sammenlignede vi også generisk NMT-output med LLM-output, og selvom kvaliteten var dårligere (højere PED-score osv.), var resultatet mere forudsigeligt, da det ofte var enslydende. Med LLM-modeller aftager kvaliteten hurtigt. Det gælder især, hvis kildesproget ikke er engelsk, og hvis sproget generelt ikke er særligt udbredt. Outputtet kan variere over tid.  

Et eksempel relaterer sig til AI-hallucinationer, især i mindre udbredte sprog, der kan påvirke outputtet i en sådan grad, at oversættelsen simpelthen bliver ubrugelig. Dette blev set i ukorrekt håndtering af teknisk indhold som URL'er, kunde- eller domænespecifik terminologi og korte sætninger. Med andre ord kan LLM-modeller ikke producere pålidelige resultater, når de skal behandle store mængder indhold eller indhold i stor skala – i hvert fald ikke endnu.

Helt generelt viste kombinationen af Acolads resultater og menneskelig gennemgang, at selvom LLM-outputtet scorede relativt højt, havde LLM-modellerne svært ved at håndtere mere komplekst indhold med strukturelle elementer som formatering og in-line tags.

Med kravet om at skulle kunne håndtere relativt komplekse prompts på tværs af sprog og modeller vil en bredere implementering af LLM-teknologi i oversættelse gøre oversættelsesprocessen endnu dyrere, selvom udgifterne til selve tekstbehandlingen falder.

Sådan som det ser ud nu, betyder det altså, at det højst sandsynligt er bedre at anvende en maskinoversættelsesløsning, hvis kvalitet er blevet påvist, hvis du vil have automatiserede oversættelser af store mængder indhold uden menneskelig indblanding eller efterredigering.

Som vi allerede har været inde på, kan det være mere omkostningseffektivt at anvende maskinoversættelse fremfor generativ AI, også selvom du involverer menneskelig ekspertise i revisionsfasen af det automatisk oversatte output. Årsagen er, at du sparer tid på at gentage prompts med henblik på at forfine outputtet fra LLM-modellen. Derudover har NMT en lavere PED-score (Post-Edit Distance) og TER-rate (Translation Edit Rate), hvilket betyder, at NMT-outputtet kræver færre rettelser sammenlignet med LLM.

På trods af resultaterne er der ingen tvivl om, at LLM-modeller baseret på generativ AI stadig har en stor rolle at spille, når det kommer til automatiserede oversættelser – især i takt med at modellerne forfines. De besidder eksempelvis et spændende potentiale, når det kommer til stilistisk at forbedre MT-output. Analysen præsenterer stærke beviser på, at LLM-modeller kan komme til at spille en afgørende rolle i kvalitetsvurdering, hvilket kan understøtte oversættelsesprocessen, for eksempel med selvreflekterende efterredigering.

Der hersker altså ingen tvivl om, at LMM-modellerne byder på spændende muligheder, når det kommer til at håndtere tvetydigheder, idiomer, kulturelle referencer og endda humor – elementer, som nogle MT-modeller tidligere har haft udfordringer med.

NMT vs. LLM: Sådan vælger du den rette teknologi

Om du skal vælge NM T(neural maskinoversættelse) eller en LLM-model (Large Language Model) afhænger af dine specifikke behov for oversættelse, samt i hvilken kontekst teknologien vil blive anvendt. Hvis din prioritet er hurtig og nøjagtig oversættelse af specialiseret indhold, bør du vælge NMT. NMT er specifikt skræddersyet til oversættelsesopgaver og klarer sig typisk bedre end LLM-modeller, når det kommer til nøjagtighed, selvom det kræver betydelige investeringer i træning af oversættelsesmaskinen og ind i mellem resulterer i mindre naturlige oversættelser.

Hvis dit projekt på den anden side kræver et mere naturlig og uformelt sprog, især på engelsk, og du kan dedikere tid til at fintune outputtet, kan LLM-modeller vise sig at være en mere passende løsning. De er betydeligt langsommere og mere ressourcekrævende sammenlignet med NMT, men deres output kan forbedres væsentligt med de rette teknikker til at skrive prompts. Du bør dog være opmærksom på deres tendens til at producere forskellige resultater over tid samt risikoen for fejl som hallucinationer og irrelevante tilføjelser.

Konklusionen er, at du bør vælge NMT, hvis du ønsker hurtige og præcise oversættelser, og budgettet tillader, at der investeres i træning og udvikling af oversættelsesmaskinen. Hvis projektet må indeholde udviklingsmæssige input og et naturligt, uformelt sprog, bør du vælge en LLM-model, så længe du har øje for de potentielle rettelser, der i mange tilfælde må til.

Neural maskinoversættelse

  • Hurtige outputs og hurtig levering.
  • NTM er skræddersyet til oversættelse og klarer sig ofte bedre end generiske LLM-modeller, når det kommer til nøjagtighed.
  • NMT kan ind i mellem resultere i mindre naturlige oversættelser.
  • Det er muligt at træne oversættelsesmaskinen, men det kræver betydelige investeringer.

LLM (Large Language Models)

  • LLM-modeller er langsommere end NMT-modeller.
  • De generer et naturligt og uformelt sprog, især på engelsk.
  • De kan forbedres med specifikke teknikker og brugerinput – hvordan du skriver prompts, spiller en afgørende rolle!
  • De kan producere uens eller uforudsigelige resultater, hvis kvalitet præges af hallucinationer, udeladelser eller tilføjelser.

date icon5. juni 2024     tag iconOversættelse

Kunne du tænke dig at finde den bedste teknologi til dine behov?

Om Acolad Labs

Acolad Labs er en specialiseret afdeling i Acolad, som er dedikeret til at udvikle skræddersyede løsninger, der skal forbedre Acolads eksisterende udvalg af teknologier. Dette eliteteam består af tech-eksperter og erfarne softwaredesigner, der sørger for, at hver innovation ikke bare imødekommer kundernes skiftende behov, men også komplementerer den etablerede produktportefølje.

Relaterede artikler