5 giugno 2024

Traduzione automatica vs GenAI nella traduzione: un'analisi comparativa

Traduzione automatica neurale o modelli linguistici di grandi dimensioni: quale offre risultati migliori? Scopri qual è il leader indiscusso che emerge dall’indagine esclusiva di Acolad.

Il settore della traduzione sta vivendo una trasformazione senza precedenti a causa dei rapidi progressi nella tecnologia di IA. Quest’evoluzione solleva un quesito fondamentale: quale tra la traduzione automatica neurale (NMT) e i più recenti modelli linguistici avanzati (LLM) offre migliori prestazioni ed efficienza nel campo della traduzione? La nostra indagine esclusiva fornisce una visione diretta delle prestazioni di NMT e LLM.

Utilizzando per i nostri test un ventaglio di metriche di valutazione e set di dati, esploriamo i punti di forza e di debolezza di ciascuna tecnologia e il loro impatto sulla qualità, sull'efficienza e sull'applicazione alla traduzione. Esaminando queste tecnologie, puntiamo a scoprire quale soluzione è più promettente per casi d’uso specifici. Unisciti a noi per saperne di più.

Punti chiave

Nel complesso, questa indagine ha dimostrato che un modello NMT ben addestrato supera l’IA generativa nella maggior parte delle metriche chiave.

Traduzione di alta qualità

La NMT ottiene un punteggio BLEU superiore del 13% rispetto alla media dei punteggi degli LLM esaminati.

Migliore precisione contestuale

La NMT ha ottenuto risultati migliori del 4% nel COMET-QE, sebbene gli LLM continuino a generare risultati linguistici accettabili con punteggi pari o superiori al 90° percentile.

Lavoro di post-editing ridotto

La NMT presenta punteggi di Post-Edit Distance (PED) inferiori del 16% rispetto a GPT-4, il modello linguistico di grandi dimensioni con le migliori prestazioni tra quelli testati. Inoltre, il Translation Edit Rate (TER) mostra un vantaggio del 35%, indicando un minor numero di correzioni necessarie rispetto al contenuto di riferimento.

Metodologia

Questa indagine condotta dagli Acolad Labs, basata sui dati raccolti in una fase precedente, ha riguardato contenuti reali per garantirne la rilevanza pratica. L’indagine è composta da due componenti principali: Il primo si focalizza sulla traduzione completamente automatizzata, valutando le performance della traduzione automatica neurale (NMT) e dei modelli linguistici di grandi dimensioni (LLM) senza l'intervento umano di post-editing. Il secondo adotta un approccio "human-in-the-loop", dove linguisti professionisti revisionano e perfezionano le traduzioni generate dalla macchina, valutando l'efficienza e la qualità della collaborazione tra l'uomo e l'intelligenza artificiale. Le revisioni umane sono state eseguite da un fornitore di servizi linguistici terzo per garantire una valutazione indipendente.

Questa fase comprendeva ulteriori lingue di livello misto, in particolare francese, rumeno, svedese e cinese. È stata utilizzata una libreria di prompt migliorata, basata su quanto appreso in precedenza, insieme a terminologia e istruzioni di stile migliorate per i modelli di IA. Ciò comprendeva le tecniche di pulizia del glossario dalla traduzione automatica e le tecniche di estrazione del prompt cross-model. È stata introdotta una gamma più ampia di confronti nel panorama della traduzione basata sull'IA, valutando vari sistemi di traduzione automatica neurale e modelli linguistici di grandi dimensioni.

Questo approccio completo ha permesso un confronto dettagliato delle capacità dell'IA nelle soluzioni linguistiche per le aziende.


Parte 1

Valutazione delle prestazioni della traduzione automatica

Per un’analisi completa dell'output automatizzato, i sistemi valutati includevano:

  • Un motore di traduzione automatica neurale pre-addestrato
  • Un modello linguistico di grandi dimensioni a cui si accede tramite un'API della piattaforma di IA personalizzata
  • Diversi modelli linguistici di grandi dimensioni, tra cui uno addestrato con numerosi parametri e un altro focalizzato sull'elaborazione dei dati su larga scala: ChatGPT-4 (Turbo) di OpenAI, Mistral (Large), Llama 2 (70b) e Acolad LLM. 

L'analisi ha utilizzato contenuti del mondo reale, comprensivi di formattazione e stilizzati con tag in linea, e dipendenze terminologiche, offrendo una rappresentazione accurata del tipo di contenuti comunemente inviati per la traduzione. Questi contenuti sono stati pre-elaborati e analizzati nel modo consueto attraverso il nostro sistema di gestione delle traduzioni, confrontando gli output automatizzati e i contenuti tradotti da linguisti esperti nel settore dei contenuti in esame.

I modelli linguistici di grandi dimensioni (LLM) sono stati istruiti con prompt per limitare l'output a una terminologia e uno stile specifici. Inoltre, abbiamo utilizzato tecniche aggiuntive, come le estrazioni di prompt one-shot/few-shot, per cercare di migliorare l'output.  Da notare che gli LLM di fornitori diversi richiedevano strategie di prompting diverse, in particolare per quanto riguardava la struttura tecnica del contenuto.

I risultati di NMT, LLM e contenuti tradotti da professionisti sono stati quindi analizzati attraverso una serie di metriche di settore:

BLEU (Bilingual Evaluation Understudy): è una metrica automatizzata utilizzata per valutare la qualità del testo tradotto da un modello di traduzione automatica confrontandolo con una o più traduzioni di riferimento umane.

chrF (Character Level F-score): mentre BLEU si concentra sulla corrispondenza a livello di parole, chrF valuta quanto l'output coincida con una traduzione ideale a livello di caratteri.

COMET (Crosslingual Optimized Metric for Evaluation of Translation): a differenza di BLEU o chrF, che si basano su confronti statistici, COMET utilizza la potenza delle reti neurali per prevedere il modo in cui gli esseri umani valuterebbero una traduzione automatica.

PED (Post-Edit Distance): questa metrica misura lo sforzo richiesto per trasformare l'output di una traduzione automatica in una traduzione umana di alta qualità.

TER (Translation Edit Rate): pur essendo simile a PED, TER si concentra sul numero di modifiche necessarie per ottenere una corrispondenza perfetta con una traduzione di riferimento.

Per la coppia di lingue inglese-francese, Acolad NMT ha superato tre importanti LLM di IA: ChatGPT-4 (Turbo) di OpenAI, Mistral (Large), Llama 2 (70b) e il nostro LLM sperimentale.

Ha ottenuto il miglior punteggio in tre principali parametri di valutazione della qualità: BLEU, chrF e COMET. 

Il motore NMT francese recentemente aggiornato ha ottenuto i migliori risultati anche nei parametri PED e TER (dove un valore inferiore è migliore), che misurano quanti interventi deve apportare un post-editor per correggere il testo.

Come evidenziato, i risultati degli LLM hanno registrato prestazioni eccellenti su COMET, ritenuto un buon indicatore di fluidità linguistica dell’output, con punteggi che si avvicinano o addirittura superano il 90° percentile. Ciò indica che gli LLM hanno un futuro nella traduzione e nella generazione di contenuti, in particolare nel caso di lingue dotate di risorse sufficienti, come il francese. Gli ottimi punteggi COMET, tuttavia, potrebbero non essere in linea con le aspettative dei clienti in termini di accuratezza, glossario e stile.

Dall’inglese allo svedese i risultati sono stati simili, con la NMT che ha nuovamente superato i principali modelli LLM su tutta la linea.

Per la coppia linguistica inglese-cinese (semplificato), il motore NMT ha ottenuto le migliori prestazioni in tutte le metriche, ad eccezione di BLEU. Le lingue logografiche, come il cinese, mostrano risultati variabili, ma con il progresso nella tokenizzazione (il processo di suddivisione delle frasi in unità gestibili come parole o sotto-parole), è probabile che i modelli futuri mostrino miglioramenti significativi.  Vale anche la pena notare che, per alcuni esperti, COMET è un indicatore di qualità più utile.

Nel nostro test finale in rumeno, ChatGPT-4 di OpenAI ha leggermente superato il modello NMT in tutte le metriche, sebbene i risultati fossero più o meno simili. I nostri team utilizzeranno questo risultato per iterare e migliorare ulteriormente questo modello di traduzione automatica. Come tutti i sistemi NMT, i modelli linguistici dovranno essere costantemente aggiornati e ottimizzati.

Tuttavia, è importante notare che gli LLM possono mostrare altre peculiarità impreviste, anche quando ottengono punteggi più alti nelle metriche di qualità. Lo vedremo più avanti, dopo esserci addentrati nelle analisi di qualità.


Parte 2

Human-in-the-Loop, la revisione linguistica professionale

Oltre a valutare i risultati della traduzione completamente automatizzata, volevamo incorporare una valutazione Human-in-the-Loop (HITL), vale a dire con l’intervento di esperti umani, per garantire una valutazione completa della qualità della traduzione. Tutti i campioni sono stati forniti a linguisti addestrati dal cliente e presentati come test anonimi per garantire una valutazione imparziale. I linguisti hanno riesaminato i contenuti MTPE (Post-Editing della Traduzione Automatica) dati al cliente e hanno fornito risultati dettagliati su delle schede di valutazione (cinque per lingua), con analisi a livello di segmento e commenti dei linguisti per un'ulteriore verifica.

Le valutazioni HITL hanno mostrato che, sebbene gli LLM possano produrre traduzioni accettabili, vi erano comunque errori significativi che necessitavano dell'intervento umano. I sistemi NMT hanno mostrato prestazioni migliori nella riduzione degli sforzi di post-editing, con punteggi PED e TER inferiori rispetto agli LLM come GPT-4. La valutazione HITL ha evidenziato tassi di errore variabili tra le diverse lingue, con alcune, come lo svedese, che presentano maggiori sfide e tassi di errore più elevati rispetto ad altre lingue, quali il francese. Ciò indica che la revisione umana è cruciale per le lingue complesse o meno tradotte.

Trasforma le tue traduzioni con la precisione dell'IA: Prova i flussi di lavoro automatizzati di Acolad

Cosa significa per il futuro degli LLM e della traduzione automatica

Guardando a un futuro in cui gli LLM diventeranno sempre più sofisticati, sembra che al momento i modelli NMT ottimizzati producano risultati più coerenti e facili da migliorare tramite un post-editing di alta qualità, specialmente con contenuti concreti elaborati nei tradizionali flussi di lavoro dei sistemi di gestione della traduzione. 

È importante notare anche che i modelli NMT altamente addestrati (che utilizzano contenuti e terminologia specifici di settore) non sono soggetti ad alcune delle sfide tecniche e peculiarità che persistono nell'uso dell'IA generativa.

La NMT garantisce una maggiore prevedibilità, soprattutto nel tempo e tra lingue ottimizzate. In precedenza abbiamo inoltre confrontato l'output generato dalla NMT con quello prodotto dagli LLM e, sebbene la qualità sia inferiore (con maggiori distanze di post-editing, eccetera), la prevedibilità è costante. Con gli LLM, la qualità diminuisce rapidamente, soprattutto quando si tratta di lingue di partenza diverse dall'inglese e, in generale, di lingue con meno risorse disponibili. L'output può variare in modo sostanziale nel corso del tempo.  

Un esempio riguarda le difficoltà legate alle allucinazioni dell'IA, soprattutto nelle lingue con risorse limitate, che possono compromettere l'output al punto da rendere la traduzione completamente inutilizzabile. Si tratta di un problema evidenziato dalle imprecisioni nella gestione di contenuti tecnici come gli URL, la terminologia specifica del cliente o del settore, e le frasi brevi. Questo suggerisce che gli LLM non producono ancora risultati sufficientemente affidabili nell'elaborazione di grandi volumi di contenuti o su vasta scala.

In generale, i risultati di Acolad combinati con la revisione umana da parte di esperti hanno mostrato che, sebbene l'output degli LLM abbia ottenuto un punteggio relativamente alto, ha riscontrato difficoltà con contenuti più complessi che includono elementi strutturali come la formattazione e il tagging in linea.

Inoltre, se viene richiesta la gestione di prompt relativamente complessi tra diverse lingue e modelli, un ampia applicazione della tecnologia LLM nella tradizione potrebbe portare a un aumento del costo totale, nonostante una diminuzione dei costi diretti di elaborazione.

In effetti, se l’esigenza è quella di traduzioni automatizzate per grandi volumi di contenuti senza intervento umano o post-editing, è meglio affidarsi a una soluzione di traduzione automatica collaudata e di qualità, almeno per ora.

Come abbiamo già notato, anche quando si impiega un approccio "human-in-the-loop" per modificare l'output della traduzione automatica, può ancora essere più conveniente utilizzare la traduzione automatica rispetto all'IA generativa, semplicemente per il risparmio di tempo derivante dall'iterazione dei prompt per perfezionare l'output degli LLM. Inoltre, la NMT presenta una distanza di post-editing (PED) e un tasso di modifica della traduzione (TER) inferiori, il che significa che richiede meno lavoro di correzione rispetto all'uso degli LLM.

Nonostante questi risultati, è evidente che gli LLM basati sull'IA generativa continueranno a svolgere un ruolo significativo nell'automazione delle traduzioni, specialmente con il continuo miglioramento dei modelli. Ad esempio, presentano interessanti potenzialità di applicazione, come la riscrittura stilistica dell'output della traduzione automatica. È evidente che gli LLM potrebbero svolgere un ruolo cruciale nella valutazione della qualità della traduzione, a favore di funzionalità come il post-editing autoriflessivo.

Evidenziano chiaramente interessanti capacità nella gestione delle ambiguità, dei modi di dire, dei riferimenti culturali e persino dell’umorismo, aspetti in cui alcuni modelli di traduzione automatica tradizionalmente hanno incontrato difficoltà a causa dei limitati set di dati utilizzati per l'addestramento.

NMT VS LLM: Come fare la scelta giusta?

La scelta tra traduzione automatica neurale (NMT) e modelli linguistici di grandi dimensioni (LLM) dipende dalle esigenze di traduzione specifiche e dal contesto d’uso della tecnologia. Se la priorità sono la velocità e l'accuratezza dei contenuti specializzati, la NMT è la scelta migliore. È appositamente studiata per le attività di traduzione e di solito supera gli LLM in termini di precisione, anche se potrebbe richiedere investimenti significativi nella formazione e occasionalmente produrre traduzioni meno naturali.

Se il progetto invece richiede un linguaggio più naturale e colloquiale, soprattutto in inglese, ed è possibile dedicare del tempo al perfezionamento dei risultati, gli LLM potrebbero rivelarsi più adatti. Sono notevolmente più lenti e più esigenti in termini di risorse rispetto alla NMT, ma i loro risultati possono essere migliorati significativamente con tecniche di ingegneria del prompt. Tuttavia, è importante prestare attenzione alla loro tendenza a produrre risultati incoerenti e possibili errori, come allucinazioni o aggiunte non pertinenti.

In sintesi, è bene optare per la NMT se la priorità è la consegna rapida di traduzioni altamente accurate e il budget permette di investire nello sviluppo di tale tecnologia. La scelta dovrebbe invece ricadere sugli LLM se il progetto consente un maggiore input di sviluppo e trae vantaggio dalla produzione di un linguaggio fluente e colloquiale, tenendo presente la necessità di potenziali correzioni.

Traduzione automatica neurale

  • Prestazioni veloci per una consegna rapida.
  • Specificamente adattata alla traduzione, di solito supera gli LLM generici in termini di precisione.
  • Talvolta può generare traduzioni meno naturali.
  • Possibilità di formazione, ma potrebbe richiedere un investimento significativo.

Modelli linguistici di grandi dimensioni (LLM)

  • Più lenti rispetto alla NMT.
  • Generano un linguaggio naturale, colloquiale, soprattutto in inglese.
  • Possono migliorare con tecniche specifiche e con l’input dell'utente: l'ingegneria del prompt è fondamentale!
  • Possono generare risultati incoerenti o imprevedibili, come allucinazioni, omissioni o aggiunte.

date icon5 giugno 2024     tag iconTraduzione

Cerchi la migliore tecnologia per le tue esigenze?

A proposito degli Acolad Labs

Gli Acolad Labs sono una divisione specializzata di Acolad dedicata allo sviluppo di soluzioni personalizzate per migliorare lo stack tecnologico esistente di Acolad. Composto da un team diversificato di esperti tecnologici e progettisti di software, questo team d'élite garantisce che ogni innovazione non solo soddisfi le esigenze in evoluzione dei clienti, ma integri anche il portafoglio di prodotti consolidato.

Articoli correlati