Översättningsområdet förändras mer än någonsin tack vare de snabba framstegen inom AI-teknik. Den här utvecklingen lyfter fram en avgörande fråga: ger neural maskinöversättning (NMT) eller de nya stora språkmodellerna (LLM) bäst resultat och effektivitet för översättningsuppdrag? Vår exklusiva undersökning ger direkta insikter i resultaten av neural maskinöversättning och stora språkmodeller.
Genom att använda en rad utvärderingsindikatorer och uppsättningar med testdata, utforskar vi styrkor och svagheter hos respektive teknik samt deras inverkan på översättningarnas kvalitet, effektivitet och tillämpningar. Genom att undersöka dessa tekniker försöker vi ta reda på vilken lösning som är mest lovande för specifika användningsfall. Läs vidare om du vill veta mer.
Viktiga höjdpunkter
Sammantaget visade den här undersökningen att en vältränad NMT-modell ger bättre resultat än generativ AI avseende de flesta viktiga indikatorer.
Metodik
Den här undersökningen från Acolad Labs byggde på insikter från en tidigare fas och genomfördes med verkligt innehåll för att säkerställa dess praktiska relevans. Undersökningen består av två huvudkomponenter: Den första komponenten fokuserar på helt automatiserad översättning, där resultaten av neurala maskinöversättningar (NMT) och stora språkmodeller (LLM:er) utvärderas utan någon mänsklig efterredigering. Den andra komponenten omfattar en metod med en ”human in the loop”, där professionella lingvister granskar och finslipar de maskingenererade översättningarna och utvärderar den kombinerade effektiviteten och kvaliteten för samarbetet mellan människa och AI. Mänsklig granskning genomfördes av en tredjeparts språktjänstleverantör för att säkerställa en oberoende utvärdering.
Den här fasen inkluderade ytterligare språk på olika nivåer, närmare bestämt franska, rumänska, svenska och kinesiska. Ett förbättrat instruktionsbibliotek som bygger på tidigare lärdomar användes tillsammans med förbättrad terminologi och stilistiska instruktioner för AI-modeller. Detta omfattade tekniker för städning av ordlistor från maskinöversättningar samt modellöverskridande tekniker för att tolka och svara på givna instruktioner. Ett större antal jämförelser i AI-översättningsmiljön möjliggjordes genom utvärdering av flera system för neural maskinöversättning och stora språkmodeller.
Detta heltäckande arbetssätt lade grunden för en detaljerad jämförelse av AI-kapaciteten för språklösningar i företagsklass.
Del 1
Resultatutvärdering av automatiserad översättning
För analysen av det helt automatiserade resultatet utvärderades följande system:
- En neural maskinöversättningsmotor som tränats i förväg
- En stor språkmodell som användes via ett anpassat API för en AI-plattform
- Flera stora språkmodeller, däribland en som tränats med omfattande parametrar och en annan med fokus på storskalig databehandling: OpenAI:s ChatGPT-4 (Turbo), Mistral (Large), Llama 2 (70b) och Acolad LLM.
Analysen använde verkligt, formaterat innehåll som anpassats med infogade taggar och terminologiberoenden. Detta är en bra representation av det innehåll som vanligtvis skickas för översättning. Det här innehållet förbehandlades och tolkades genom vårt system för översättningshantering på vanligt sätt, och de automatiserade resultaten jämfördes med innehåll översatt av professionella lingvister som är bekanta med innehållet som testas.
LLM:erna instruerades att begränsa sitt resultat till specifik terminologi och stil, även om vi också använde andra tekniker, som tolkning av instruktioner med ett eller flera exempel, för att försöka förbättra LLM-resultaten. En viktig sak att tänka på är att stora språkmodeller från olika leverantörer kräver olika strategier för instruktionerna, framför allt med hänsyn till innehållets tekniska struktur.
Resultaten från neurala maskinöversättningar, stora språkmodeller och professionellt översatt innehåll bedömdes sedan enligt en rad branschindikatorer:
BLEU (Bilingual Evaluation Understudy): En indikator som ofta används för att jämföra hur nära en maskinöversättning ligger en högkvalitativ mänsklig översättning, med fokus på hur många sekvenser med ord som matchar.
chrF (Character Level F-poäng): Medan BLEU utvärderar matchning på ordnivå, tittar chrF på likheten mellan resultatet och en idealöversättning på teckennivå.
COMET (Crosslingual Optimized Metric for Evaluation of Translation): Till skillnad från BLEU eller chrF, som förlitar sig på statistiska jämförelser, använder COMET kraften i neurala nätverk för att förutsäga hur människor skulle betygsätta en maskinöversättning.
PED (Post-Edit Distance): Denna indikator mäter arbetet som krävs för att omvandla resultatet av maskinöversättningen till en högkvalitativ mänsklig översättning.
TER (Translation Edit Rate): Även om TER påminner om PED, fokuserar det på antalet ändringar som krävs för att uppnå en perfekt matchning med en referensöversättning.
För språkparet engelska till franska lyckades Acolads neurala maskinöversättning bättre än alla tre stora AI-språkmodeller – OpenAI:s ChatGPT-4 (Turbo), Mistral (Large), Llama 2 (70b) – samt vår egen experimentella Acolad LLM.
Den fick bäst resultat avseende tre större utvärderingsindikatorer: BLEU, chrF och COMET.
Den nyligen uppdaterade franska NMT-motorn fick också bäst resultat för PED- och TER-indikatorerna (ju lägre desto bättre), som mäter hur många ändringar en efterredigerare måste göra för att korrigera texten.
Som vi kan se uppnådde de stora språkmodellerna bra resultat för COMET, som anses vara ett bra värde för att bedöma det språkliga flytet i ett resultat. Poängen låg på eller över den 90:e percentilen. Detta indikerar att stora språkmodeller har en framtid inom översättning och innehållsproduktion, i synnerhet vad gäller franska och andra språk för vilka stora textmängder finns tillgängliga. De höga COMET-poängen innebär dock inte nödvändigtvis att resultatet uppfyller kundernas förväntningar på exakthet, ordlistor och stil.
För översättning från engelska till svenska var situationen i princip densamma: även här ledde neural maskinöversättning på alla punkter till bättre resultat än de stora språkmodellerna.
För språkparet engelska-kinesiska (förenklad) gav NMT-motorn bästa resultat för alla indikatorer utom BLEU. Logografiska språk som kinesiska fortsätter att ge blandade resultat, men med förbättrad tokenisering (en metod som används för att dela upp meningar i mer lätthanterliga stycken, till exempel ord eller delar av ord) förväntas framtida modeller ge bättre resultat. Det är också värt att notera att vissa experter betraktar COMET som en mer användbar kvalitetsindikator.
I vårt slutliga testspråk rumänska uppnådde OpenAI:s ChatGPT-4 något bättre resultat än NMT-modellen för alla indikatorer, även om resultaten var mycket likartade. Våra team kommer att använda de här resultaten för att återanvända och förbättra den här modellen för maskinöversättning. Precis som för alla NMT-system måste språkmodellerna uppdateras och optimeras efter hand.
Det är dock värt att observera att stora språkmodeller kan leda till oväntade egenheter, även om de får höga poäng i de olika kvalitetsindikatorerna. Vi kommer att titta på det längre fram, efter att vi förklarat dessa kvalitetsanalyser närmare.
Del 2
Human-in-the-loop, professionell språkgranskning
Förutom att utvärdera resultat från helt automatiska översättningar ville vi ta med en human-in-the-loop-utvärdering (HITL) för att säkerställa en heltäckande utvärdering av översättningskvaliteten. Alla texter lämnades över till kundutbildade lingvister i form av ett blindtest, för att säkerställa opartisk utvärdering. Lingvisterna gjorde en ny utvärdering av det efterredigerade maskinöversatta innehåll som levererats till kunden och tillhandahöll detaljerade poängresultat (fem per språk), med analyser på segmentnivå och kommentarer från lingvisterna för vidare granskning.
HITL-utvärderingarna visade att även om stora språkmodeller kan ge godtagbara översättningar, uppstod ändå betydande fel som krävde mänskligt ingripande. NMT-systemen visade bättre resultat när det gäller att minska arbetet med efterredigering, med lägre poäng för Post-Edit Distance (PED) och Translation Edit Rate (TER) jämfört med LLM:er som GPT-4. HITL-utvärderingen lyfte fram olika felfrekvenser på olika språk. Här visade det sig att vissa språk, till exempel svenska, var mer utmanande och felfrekvenserna högre än för språk som franska. Detta tyder på att mänsklig granskning är särskilt viktigt för komplexa språk eller språk som översätts mer sällan.
Vad detta innebär för framtiden för stora språkmodeller och maskinöversättning
På väg mot en framtid där stora språkmodeller blir allt mer sofistikerade verkar det som att anpassade modeller för neural maskinöversättning fortfarande ger mer konsekventa resultat som är enklare att efterredigera för att uppnå hög kvalitet. Detta gäller särskilt i fråga om verkligt innehåll som bearbetas genom arbetsflöden i klassiska system för översättningshantering.
Det är också viktigt att observera att ordentligt tränade NMT-modeller (med innehåll och terminologi för specifika domäner) inte drabbas av några av de tekniska utmaningar och egenheter som kvarstår vid användning av generativ AI.
Neural maskinöversättning är mer förutsägbar, framför allt över tid och på flera anpassade språk. Vi har tidigare jämfört generiska NMT-resultat med LLM-resultat, och även om kvaliteten är lägre (större efterredigeringsavstånd osv.), är resultaten konsekvent förutsägbara. Med stora språkmodeller minskar kvaliteten snabbt, särskilt med andra källspråk än engelska och för språk för vilka stora textmängder i allmänhet inte finns tillgängliga. Det resulterande innehållet kan i hög grad variera över tid.
Ett exempel rör AI-hallucinationer – särskilt för språk för vilka de befintliga textmängderna är mindre – vilket kan påverka resultatet till en punkt där det helt enkelt är oanvändbart. Detta syntes i felaktig hantering av tekniskt innehåll som webbadresser, kund- eller domänspecifik terminologi och korta meningar, och innebär att stora språkmodeller ännu inte ger tillräckligt tillförlitliga resultat vid bearbetning av stora mängder innehåll.
I allmänhet visade Acolads resultat i kombination med mänsklig expertgranskning att även om LLM-resultatet fick förhållandevis höga poäng, fanns det svårigheter att hantera komplext innehåll med strukturella element, till exempel formatering och infogade taggar.
Dessutom innebär kraven på att hantera relativt komplexa instruktioner på flera språk och i olika modeller att den bredare användningen av LLM-teknik inom arbetsflöden ger ökade totalkostnader för översättning, trots att de rena behandlingskostnaderna minskar.
Om du behöver automatiserade översättningar för stora mängder innehåll utan mänskligt ingripande eller efterredigering, gör du troligtvis bäst i att förlita dig på en kvalitativ och beprövad lösning för maskinöversättning – i alla fall för tillfället.
Som vi redan noterat kan det vara mer kostnadseffektivt att använda maskinöversättning i stället för generativ AI även när vi använder en ”human-in-the-loop” för att redigera resultatet av den automatiska översättningen. Det beror helt enkelt på den tid du sparar på att slippa upprepa instruktioner för att förfina resultatet från stora språkmodeller. Dessutom har neural maskinöversättning lägre PED (Post-Edit Distance) och TER (Translation Edit Rate), vilket innebär att det krävs mindre arbete för att korrigera resultatet jämfört med om du börjar med stora språkmodeller.
Trots dessa resultat är det tydligt att de stora språkmodellerna baserade på generativ AI ändå har en viktig roll att spela vid automatisering av översättningar – en roll som blir allt viktigare allteftersom modellerna förbättras. Det finns spännande potentiella tillämpningsområden, till exempel att stilistiskt skriva om maskinöversatta texter. Dessutom finns starka bevis på att stora språkmodeller kan spela en avgörande roll inom kvalitetsutvärdering, vilket kan vara till nytta i olika funktioner inom översättning, till exempel självreflekterande efterredigering.
Detta visar tydligt de spännande möjligheter som finns vid hantering av tvetydigheter, idiom, kulturella referenser och till och med humor, något som vissa maskinöversättningsmodeller traditionellt haft problem med på grund av de begränsade datauppsättningar som använts för att skapa modellerna.
NEURAL MASKINÖVERSÄTTNING JÄMFÖRT MED STORA SPRÅKMODELLER: så väljer du rätt alternativ
Valet mellan neural maskinöversättning (NMT) och stora språkmodeller (LLM) beror på dina specifika översättningsbehov och i vilket sammanhang tekniken ska användas. Om du prioriterar snabbhet och noggrannhet för specialiserat innehåll, är neural maskinöversättning det bästa valet. Det är skräddarsytt för översättningsuppgifter och ger normalt sett bättre resultat än stora språkmodeller, även om det kan kräva stora investeringar i träning av modellerna och ibland resultera i mindre naturliga översättningar.
Om projektet å andra sidan kräver ett mer naturligt och samtalsliknande språk – framför allt på engelska – och du har tid att lägga på att finjustera resultaten, kan stora språkmodeller vara mer lämpliga. De är märkbart långsammare och mer resurskrävande jämfört med neurala maskinöversättningar, men resultaten kan i hög grad förbättras med hjälp av olika tekniker för utformning av instruktioner. Tänk dock på deras tendens att ge inkonsekventa resultat och potentiella fel, till exempel hallucinationer eller irrelevanta tillägg.
Sammanfattningsvis bör du välja neural maskinöversättning om snabb leverans av mycket exakta översättningar är avgörande och budgeten möjliggör investering i utvecklingen. Välj stora språkmodeller om det finns möjlighet att utveckla texten och du behöver ett samtalsliknande språk med flyt. Ha dock hela tiden behovet av eventuella korrigeringar i åtanke.
5 juni 2024 Översättning
Om Acolad Labs
Acolad Labs är en specialiserad avdelning inom Acolad som utvecklar anpassade lösningar för att förbättra Acolads befintliga teknikstack. Vårt skickliga team består av tekniska experter och erfarna programutvecklare som säkerställer att varje innovation inte bara uppfyller kundernas föränderliga behov, utan också kompletterar den befintliga produktportföljen.
Relaterade artiklar