Door de snelle vooruitgang op het gebied van AI kent de vertaalwereld een ongeziene transformatie. Deze evolutie leidde tot een belangrijke vraag: welke oplossing biedt superieure performance en efficiëntie bij vertaaltaken – neurale machinevertaling (NMT) of de nieuwere grote taalmodellen (LLM's)? Onze exclusieve research geeft een rechtstreeks inzicht in de performance van NMT en LLM's.
Via diverse evaluatiecriteria en verschillende testdatasets onderzoeken wij de sterke en zwakke punten van elke technologie en hun effect op de vertaalkwaliteit, efficiëntie en toepassing. Door deze technologieën te bestuderen, willen wij te weten komen welke oplossing het beste is voor specifieke gebruiksgevallen. Ontdek het samen met ons.
Essentiële hoogtepunten
Deze research toonde over het algemeen aan dat een goed getraind NMT-model voor de meeste belangrijke criteria beter presteert dan generatieve AI.
Methodologie
Deze research, die uitgevoerd is door Acolad Labs en gebaseerd is op inzichten uit een vorige fase, omvatte content uit de echte wereld om de praktische relevantie te waarborgen. De studie bestond uit twee belangrijke componenten: Het eerste component was gericht op louter geautomatiseerde vertaling, waarbij de performance van neurale machinevertaling (NMT) en grote taalmodellen (LLM's) geëvalueerd werd zonder post-editing door een mens. Het tweede component had betrekking op een benadering met menselijke inzet ("human in the loop"), waarbij professionele taalkundigen de vertalingen van de machine reviseerden en verbeterden. Dit zorgde voor een evaluatie van de gecombineerde efficiëntie en de kwaliteit van de samenwerking tussen mens en AI. Om een onafhankelijke evaluatie te waarborgen, werden de menselijke revisies uitgevoerd door een derde provider van taaldiensten.
Deze fase omvatte bijkomende talen, met name Frans, Roemeens, Zweeds en Chinees. Er werd gebruikgemaakt van een verbeterde bibliotheek van prompts, op basis van eerdere leerprocessen, samen met geavanceerde terminologie en stijlinstructies voor AI-modellen. Dit behelst technieken om woordenlijsten van machinevertalingen op te schonen en technieken voor het exporteren van prompts uit verschillende modellen. Er werden heel wat vergelijkingen binnen het AI-vertaallandschap ingevoerd, waarbij meerdere systemen voor neurale machinevertaling en grote taalmodellen geëvalueerd werden.
Deze uitgebreide aanpak maakte een gedetailleerde vergelijking mogelijk van de AI-capaciteiten op het gebied van taaloplossingen op bedrijfsniveau.
Deel 1
Evaluatie van geautomatiseerde vertaalperformance
Voor een volledige analyse van de geautomatiseerde output omvatten de geëvalueerde systemen:
- Een vooraf getraind systeem voor neurale machinevertaling
- Een groot taalmodel toegankelijk via een AI-platform-API op maat
- Diverse grote taalmodellen, inclusief een model getraind met uitgebreide parameters en een ander model gericht op de verwerking van grootschalige gegevens: ChatGPT-4 van OpenAI (Turbo), Mistral (Large), Llama 2 (70b) en Acolad LLM.
De analyse gebruikte content uit de echte wereld, inclusief formattering, gestileerd met inline tagging en terminologische consistenties: een goede representatie van het soort content dat vaak ingediend wordt voor vertaling. Deze content werd zoals gebruikelijk vooraf verwerkt en geanalyseerd via ons vertaalbeheersysteem en de geautomatiseerde outputs werden vergeleken met professioneel vertaalde content door taalkundigen die ervaring hebben met het onderwerp van de geteste content.
De LLM's moesten hun output beperken tot specifieke terminologie en stijl, terwijl wij ook andere technieken gebruikten, zoals one-shot/few-shot extracties van prompts om de output van LLM's te verbeteren. Er moet wel worden opgemerkt dat LLM's van verschillende providers ook verschillende promptingstrategieën vereisen, met name voor wat betreft de technische structuur van de content.
De outputs van NMT, LLM's en professioneel vertaalde content werden vervolgens geëvalueerd aan de hand van een aantal sectorale criteria:
BLEU (Bilingual Evaluation Understudy): Een vaak gebruikt criterium dat vergelijkt hoe dicht een machinevertaling aansluit bij een kwalitatief hoogstaande menselijke vertaling, waarbij de focus ligt op hoeveel woordenreeksen overeenstemmen.
chrF (Character Level F-score): Terwijl BLEU overeenstemmingen op woordniveau evalueert, kijkt chrF naar de vergelijkbaarheid van de output met een ideale vertaling op tekenniveau.
COMET (Crosslingual Optimized Metric for Evaluation of Translation): In tegenstelling tot BLEU of chrF, die gebaseerd zijn op statistische vergelijkingen, gebruikt COMET het vermogen van neurale netwerken om te voorspellen hoe mensen een machinevertaling zouden evalueren.
PED (Post-Edit Distance): Dit criterium meet de inspanning die nodig is om de output van een machinevertaling te transformeren naar een kwalitatief hoogstaande menselijke vertaling.
TER (Translation Edit Rate): Hoewel het vergelijkbaar is met PED, legt TER de focus op het aantal edits dat nodig is om een perfecte overeenstemming te krijgen met een referentievertaling.
Voor de talencombinatie Engels naar Frans presteerde Acolad NMT beter dan drie vooraanstaande AI LLM's: ChatGPT-4 van Open AI (Turbo), Mistral (Large), Llama 2 (70b) en ons eigen experimentele LLM.
Het behaalde de beste score voor de drie belangrijkste criteria voor evaluatie van de kwaliteit, namelijk BLEU, chrF en COMET.
Het Franse NMT-systeem, dat onlangs een update kreeg, presteerde het beste voor de criteria PED en TER (hoe lager, hoe beter), die meten hoeveel edits een post-editor nodig heeft om de tekst te verbeteren.
Zoals vermeld, deed de output van LLM's het goed in het kader van COMET, dat beschouwd wordt als een goede maatstaf van de taalkundige vlotheid van een resultaat, met scores rond of boven 90 procent. Dit toont aan dat er voor LLM's een toekomst is weggelegd in het kader van de generatie van vertalingen en content, en in het bijzonder talen met veel resources zoals het Frans. Maar de sterke COMET-scores stemmen mogelijk niet overeen met de klantverwachtingen op het gebied van accuraatheid, woordenschat en stijl.
Voor Engels naar Zweeds waren de resultaten vergelijkbaar, waarbij NMT opnieuw beter presteerde dan de belangrijkste LLM-modellen.
Voor de talencombinatie Engels-Chinees (vereenvoudigd) presteerde het NMT-systeem het beste voor alle criteria – met uitzondering van BLEU. Logografische talen, zoals Chinees, blijven gemengde resultaten opleveren, maar met een betere tokenisatie (de methode waarmee zinnen worden opgesplitst in beter hanteerbare delen, zoals woorden of subwoorden) zullen toekomstige modellen waarschijnlijk betere resultaten opleveren. Er moet ook worden opgemerkt dat COMET volgens experts een nuttiger kwaliteitscriterium is.
Bij onze laatste testtaal, Roemeens, deed ChatGPT-4 van Open AI het voor alle criteria iets beter dan het NMT-model, hoewel de resultaten redelijk dicht bij elkaar lagen. Onze teams zullen dit resultaat gebruiken om dit machinevertaalmodel door te ontwikkelen en te verbeteren. Net zoals alle NMT-systemen moeten de taalmodellen in verloop van tijd geüpdatet en geoptimaliseerd worden.
Er moet evenwel worden opgemerkt dat LLM's voor een aantal onverwachte afwijkingen kunnen zorgen, zelfs wanneer de score hoger is in het kader van de kwaliteitscriteria. We gaan hier later dieper op in. Eerst geven we wat uitleg over deze kwaliteitsanalyses.
Deel 2
Human-in-the-loop, de professionele taalkundige revisie
Naast het evalueren van de volledig geautomatiseerde vertaaloutput wilden wij ook een menselijke beoordeling (Human-in-the-loop - HITL) om een uitgebreide evaluatie van de vertaalkwaliteit te waarborgen. Alle voorbeeldteksten werden verstrekt aan taalkundigen die door de klant getraind werden en voorgesteld als een blinde test om een onpartijdige evaluatie te waarborgen. De taalkundigen voerden opnieuw een evaluatie uit van de MTPE-content die aan de klant verstrekt werd en gaven gedetailleerde scores (vijf per taal) met een analyse op segmentniveau en taalkundig commentaar voor verdere controle.
Uit de HITL-beoordeling bleek dat hoewel LLM's aanvaardbare vertalingen kunnen produceren er toch sprake was van grote fouten die een menselijke tussenkomst vereisten. NMT-systemen leverden een betere prestatie, waardoor minder post-edits nodig waren, met lagere scores op het gebied van Post-Edit Distance (PED) en Translation Edit Rate (TER) in vergelijking met LLM's zoals GPT-4. De HITL-beoordeling leverde uiteenlopende foutpercentages op voor de verschillende talen, waarbij een aantal talen, zoals het Zweeds, meer uitdagingen en hogere foutenpercentages met zich meebrachten vergeleken met andere talen zoals het Frans. Dit geeft aan dat een menselijke revisie met name essentieel is voor ingewikkelde of minder vaak vertaalde talen.
Wat betekent dit voor de toekomst van LLM's en machinevertaling?
In de toekomst zullen LLM's steeds beter worden, maar voorlopig leveren afgestelde NMT-modellen consistentere resultaten die slechts beperkte post-editing vereisen met het oog op hoge kwaliteit, met name met content uit de echte wereld die verwerkt wordt in het kader van de traditionele workflows van een vertaalbeheersysteem.
Het is ook belangrijk om op te merken dat uiterst getrainde NMT-modellen (die specifieke domeincontent en terminologie maken) niet onderworpen zijn aan een aantal technische uitdagingen en afwijkingen die blijven opduiken bij gebruik van generatieve AI.
NMT biedt hogere voorspelbaarheid, vooral in verloop van tijd en bij aangepaste talen. Wij vergeleken eerder ook generische NMT-output met de output van LLM's, en hoewel de kwaliteit lager is (meer post-edits, enz.), is de voorspelbaarheid van de output consistent. Met LLM's vermindert de kwaliteit snel, vooral wanneer Engels niet de brontaal is en in het algemeen voor talen met minder resources. De contentoutput kan in verloop van tijd aanzienlijk veranderen.
Eén voorbeeld heeft betrekking op AI-hallucinaties – met name bij talen met minder resources – die de output zo kunnen beïnvloeden dat de vertaling gewoonweg niet bruikbaar is. Dit was het geval bij de onjuiste behandeling van technische content zoals URL's, klant- of domeinspecifieke terminologie en korte zinnen, wat betekent dat LLM's nog niet zulke betrouwbare resultaten opleveren wanneer content in grote batches of op grote schaal wordt verwerkt.
Over het algemeen bleek uit de resultaten van Acolad in combinatie met deskundige menselijke revisie dat hoewel de LLM-output een vrij hoge score behaalde, LLM's moeite hadden met ingewikkeldere content met structurele elementen, zoals formattering en inline tagging.
Door de vereiste om vrij complexe prompts in verschillende talen en modellen te beheren, zorgt de ruimere toepassing van LLM-technologie in vertaalworkflows voor een toename van de totale vertaalkosten, ondanks de dalende zuivere verwerkingskosten.
Heb jij een geautomatiseerde vertaling nodig van grote hoeveelheden content zonder menselijke input of post-editing, dan is het voorlopig inderdaad beter dat jij een beroep doet op een kwaliteitsvolle, bewezen machinevertaaloplossing.
Zoals reeds opgemerkt, kan het – zelfs bij een human-in-the-loop-aanpak voor het editen van automatische vertaaloutput – nog steeds kosteneffectiever zijn om machinevertaling te gebruiken i.p.v. generatieve AI en dit simpelweg door de tijd die jij bespaart met de herhaling van prompts om de output van het LLM te verbeteren. Bovendien heeft NMT een lagere score op het gebied van Post-Edit Distance (PED) en Translation Edit Rate (TER), wat betekent dat er minder verbeterwerk nodig is dan bij een LLM.
Ondanks deze resultaten is het duidelijk dat LLM's op basis van generatieve AI nog steeds een grote rol zullen spelen bij de automatisering van vertalingen – zeker wanneer de modellen verfijnd worden. Het biedt interessante potentiële gebruikstoepassingen, bijvoorbeeld bij het stilistisch herschrijven van MT-output. Er zijn sterke aanwijzingen dat LLM's een cruciale rol kunnen spelen bij de evaluatie van de kwaliteit en dit kan zorgen voor ondersteuning van bepaalde vertaalcapaciteiten zoals post-editing met zelfreflectie.
Zij bieden duidelijk interessante mogelijkheden wanneer het gaat om dubbelzinnigheden, idiomen, culturele verwijzingen en zelfs humor. Allemaal zaken waarmee MT-modellen het oorspronkelijk moeilijk hadden door de beperkte datareeksen die gebruikt werden om hun modellen te ontwikkelen.
NMT versus LLM: Hoe maak je de juiste keuze?
De keuze voor neurale machinevertaling (NMT) of grote taalmodellen (LLM's) is afhankelijk van jouw specifieke vertaalbehoeften en de context waarin de technologie gebruikt wordt. Als jouw voorkeur uitgaat naar snelheid en accuraatheid voor gespecialiseerde content, dan is NMT zeker de beste keuze. NMT is speciaal bedoeld voor vertaaltaken en biedt doorgaans een betere accuraatheid dan LLM's. Het kan evenwel een aanzienlijke investering in training vereisen en soms leiden tot minder natuurlijke vertalingen.
Als jouw project een natuurlijke gesprekstaal – met name in het Engels – vereist en je tijd hebt om de outputs te verfijnen, dan zijn LLM's mogelijk beter geschikt. Zij zijn aanzienlijk trager en hebben meer resources nodig dan NMT maar de outputs kunnen aanzienlijk verbeterd worden met technieken op het gebied van promptengineering. Let er wel op dat ze de neiging hebben om inconsistente resultaten en potentiële fouten, zoals hallucinaties of irrelevante toevoegingen, te produceren.
Samengevat: jij zou NMT moeten kiezen als de snelle levering van uiterst accurate vertalingen essentieel is en het budget het toelaat om te investeren in de ontwikkeling ervan. Ga voor LLM's als het project eerder geschikt is voor ontwikkelingsinput en voordeel haalt uit de productie van vloeiende gesprekstaal, maar houd er rekening mee dat hier en daar verbeteringen nodig zijn.
5 juni 2024 Vertaling
Over Acolad Labs
Acolad Labs is een gespecialiseerde afdeling binnen Acolad die zich bezighoudt met de ontwikkeling van gepersonaliseerde oplossingen om de bestaande technologiestack van Acolad te verbeteren. Dit eliteteam bestaat uit een divers team van technologie-experts en ervaren softwaredesigners en zorgt ervoor dat elke innovatie niet alleen beantwoordt aan de evoluerende behoeften van klanten, maar ook een aanvulling vormt op de bestaande productportfolio.
Aanverwante artikelen