Grazie alla crescente maturazione della tecnologia la traduzione automatica (MT) è sempre più popolare e sofisticata. Al contempo, aumentano anche le aspettative in materia di qualità. La questione che si pongono moltissimi clienti alla ricerca di una traduzione è se la qualità della traduzione automatica sia sufficiente per i loro obiettivi o se sia necessario ricorrere alla revisione e al post-editing da parte di esperti.
Ogni post-editor e fornitore di servizi linguistici deve stabilire se l’output della traduzione automatica può essere migliorato per rispondere alle aspettative del cliente, e a quale costo. Si tratta di una valutazione complessa, ma alla quale è possibile rispondere se si dispone della metodologia giusta e del know-how necessario.
Sappiamo che la traduzione automatica non sempre è affidabile e che è necessario effettuare una revisione dell’output. Ma come sappiamo se ci permette effettivamente di ridurre il carico di lavoro, visto che è indispensabile garantire una qualità pari a quella della traduzione umana? Come calcoliamo il carico di lavoro risparmiato rispetto a una traduzione umana? In fondo non vogliamo né perdere tempo inutilmente, né lavorare più del necessario.
Se questo è il nostro obiettivo, dobbiamo disporre di metodologie che ci consentano di valutare la qualità dell’output della traduzione automatica. Spesso si pensa la traduzione automatica fornisca anche un'indicazione altrettanto automatica del grado di correttezza o affidabilità dell’output, o almeno che esistano strumenti in grado di farlo e di stabilire il carico di post-editing necessario. Purtroppo le cose non sono così semplici.
Partiamo dall’inizio: come si valuta la qualità di una traduzione?
Per capire meglio come si valuta la qualità della traduzione automatica, dobbiamo prima capire come si valuta la qualità della traduzione umana.
Tra gli standard impiegati per misurare la qualità della traduzione umana figurano il Multidimensional Quality Metrics (MQM), il Dynamic Quality Framework (DQF) e il SAE J2450. Questi standard permettono di definire criteri qualitativi quali correttezza linguistica, comprensibilità, fluidità, adeguatezza culturale e così via.
Solitamente viene generato un punteggio unificato che riflette il numero di errori e la loro gravità in relazione al volume di un determinato testo. Tale punteggio può essere adattato al caso d’uso (ad esempio modificando le soglie) in modo da determinare se una traduzione è fatta bene o no, cioè se risponde o meno alle tue esigenze. Fin qui tutto bene.
Ma qualunque sia lo standard scelto, e comunque si definiscano le soglie, il compito di rilevare e classificare gli errori in base a tali metriche viene interamente svolto da revisori umani.
Ed ecco la cattiva notizia: anche la valutazione della qualità della traduzione automatica viene effettuata da un revisore umano in modo completamente manuale!
Se le cose stanno così, perché automatizzare la misurazione della qualità della traduzione automatica?
La risposta è semplice: nonostante la misurazione automatizzata sia utile, la sua utilità dipende dall’obiettivo che ci si è preposti.
Le difficoltà di valutazione della qualità reale di una traduzione non scompaiono magicamente passando dalla traduzione umana a quella automatica. Inoltre, esistono numerose metriche che consentono di misurare la qualità della traduzione automatica, ma per decidere quale fa per te devi prima definire i tuoi obiettivi.
Ad esempio, per valutare se dei contenuti tradotti automaticamente possono essere utilizzati senza post-editing per un determinato caso d'uso, dovrai ricorrere alla stessa valutazione qualitativa impiegata per la traduzione umana: un linguista qualificato rivede la traduzione e il relativo testo di partenza e classifica gli errori ottenendo così un punteggio che indica se l'output senza revisione è sufficiente o meno per il contesto in esame. Non ci sono alternative facili o scorciatoie: se vuoi essere sicuro che un testo tradotto automaticamente soddisfi le tue aspettative di qualità, dovrai ricorrere a una revisione umana.
Ma se avessi un’esigenza diversa? Ad esempio se volessi confrontare gli output di vari motori di traduzione automatica per capire quale è più adatto a tradurre un determinato tipo di testo? Per effettuare una valutazione comparativa il metodo BLEU (Bilingual Evaluation Understudy) potrebbe essere la soluzione giusta.
A questo punto dobbiamo rispondere a una domanda fondamentale per quanto riguarda il post-editing: il post-editing consente di ridurre il carico di lavoro rispetto a una traduzione manuale? Se sì, di quanto? In questo caso, per assicurarti di non perdere tempo, il metodo PED (Post-Editing Distance) potrebbe fare al caso tuo.
Analizziamo più da vicino BLEU e altri metodi simili, e quindi il metodo PED, per capire che cosa misurano esattamente.
BLEU e metodi simili – C’è solo una risposta corretta
Il metodo di valutazione "bilingual evaluation understudy (BLEU)" e metodi simili quali HTER (Human-targeted Translation Error Rate) o LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) sono stati sviluppati da ingegneri specializzati nella MT come modalità rapide ed economiche per valutare le performance di un motore MT, perché non richiedono il coinvolgimento di un valutatore umano. Tuttavia, ciò significa anche che non forniscono le risposte che fornirebbe un valutatore umano.
Come funziona BLEU
BLEU si basa sul presupposto che esista solo una traduzione giusta per un determinato testo e che la qualità della traduzione automatica (MT) sia data dal grado di somiglianza dell’output della MT a quella traduzione. La "traduzione giusta" viene definita come traduzione di riferimento ed è costituita da un testo campione sia nella lingua di partenza che in quella di arrivo. Più concretamente, si tratta di un campione precedentemente tradotto da un traduttore umano e che è considerato di buona qualità.
La misurazione viene quindi effettuata proprio sulla base di quel testo di riferimento: il testo di partenza viene tradotto da uno o più motori MT e un algoritmo calcola la differenza tra ogni risultato dell’MT e la traduzione di riferimento. Il risultato è il cosiddetto punteggio BLEU, espresso in un numero tra 0 e 1 o tra 0% e 100%: Maggiore è il punteggio BLEU, più i due testi risultano simili.
Le lacune del metodo BLEU
Sebbene l’algoritmo utilizzato sia abbastanza sofisticato, la principale lacuna di BLEU e delle metriche è simili che si basano sul presupposto che esista solo una traduzione giusta per ogni testo. I linguisti professionisti invece sanno benissimo che per uno stesso testo di partenza possono esistere diverse traduzioni corrette.
BLEU tuttavia non misura realmente la qualità di una traduzione, bensì la capacità di un determinato motore di imitare i testi di riferimento.
Com’è facile comprendere, i punteggi BLEU relativi ad uno stesso motore MT cambiano in base al testo di riferimento. Ed è chiaro anche che un punteggio BLEU ottenuto con un testo di riferimento di scarsa qualità non rispecchia in alcun modo la qualità reale dell’MT. Inoltre, il punteggio dipende dalle dimensioni del campione utilizzato, dalla codifica dei caratteri delle lingue misurate e da altri fattori. Non è così semplice, vero?
È inoltre evidente che BLEU non sarà in grado di fornire un giudizio sulla qualità di testi nuovi, perché ha bisogno di un contesto di prova con un testo di riferimento tradotto da un essere umano. Pertanto, BLEU non può essere utilizzato per misurare la qualità di traduzioni automatiche che non hanno un corrispettivo umano, fattore che lo rende inadatto all’uso predittivo.
Rimane comunque un valido strumento per misurare il risultato dell’addestramento di un motore e, sotto certi aspetti, anche per confrontare i motori di diversi provider di MT. In ogni caso è importante sottolineare che un punteggio BLEU è una caratteristica fissa non di un motore MT, ma piuttosto di uno scenario di test. Lo stesso motore otterrà infatti punteggi diversi a seconda della traduzione di riferimento.
Il verdetto di BLEU
Sebbene BLEU fornisca solitamente un giudizio simile a quello umano sulla qualità dell’MT, non risponde davvero alla domanda sulla qualità di un determinato testo. BLEU indica semplicemente con che probabilità l’output di un testo simile alla traduzione di riferimento sia corretto. Tuttavia esistono numerosi indizi a riprova del fatto che, anche in questo limitato ambito di utilizzo, BLEU sta volgendo al termine della sua vita utile.
PED, Post-Editing Distance – Misurazione in condizioni reali
Come funziona il metodo PED
Il metodo PED misura la quantità di editing di cui ha bisogno un testo tradotto automaticamente al fine di soddisfare le aspettative di qualità. La principale differenza rispetto a BLEU è che la traduzione umana di riferimento viene eseguita sulla base dell’MT, il che aumenta la possibilità che la traduzione automatica e quella umana siano simili o identiche. Ciò si deve al fatto che i traduttori con una solida esperienza di post-editing non apportano modifiche superflue all’MT. Pertanto, partendo dal presupposto che i traduttori abbiano svolto il loro lavoro correttamente, la metrica PED determina l'idoneità al post-editing della MT con una precisione molto maggiore rispetto a BLEU.
Quindi, qualsiasi linguista con esperienza di post-editing può effettuare il post-editing per un’analisi PED? Non proprio. La cosa più importante è che il traduttore sia a conoscenza delle esigenze qualitative del cliente rispetto al testo. Una traduzione automatica può risultare fluida, senza apparenti errori di significato, ma non soddisfare comunque le esigenze qualitative del cliente. Ad esempio, la terminologia o lo stile specifici del cliente potrebbero non essere stati rispettati, i testi potrebbero superare i limiti di lunghezza previsti oppure potrebbero essere andate perse le informazioni di formattazione. In pratica sarà necessario impiegare un linguista con esperienza di post-editing ma anche con una solida conoscenza del cliente.
Il metodo PED richiede condizioni reali per produrre dati affidabili, e il calcolo può essere effettuato solo sulla base di un lavoro di post-editing della qualità richiesta. Un algoritmo calcola la differenza tra l’output della traduzione automatica e il testo post-editato, generando un valore per ogni segmento e campione di testo. Tale valore rappresenta la percentuale di traduzione automatica riutilizzata dal traduttore, partendo dal 100% (se il traduttore non ha apportato modifiche al segmento o testo) per poi scendere. Un punteggio PED alto indica un vantaggio reale in termini di efficienza per il traduttore.
Come si rapporta il punteggio PED al carico di lavoro di post-editing?
In genere, maggiore è il punteggio PED, minore è il carico di lavoro di post-editing. Tuttavia, come per le corrispondenze delle memorie di traduzione, esiste una soglia percentuale da raggiungere per ottenere un vantaggio reale in termini di efficienza. Se il valore PED complessivo per un dato tipo di testo si mantiene al di sotto di tale soglia, significa che l’MT non permette di risparmiare tempo.
Quindi, un valore PED elevato significa che il carico di lavoro del traduttore è praticamente nullo, ed è necessario pagare per il post-editing se il PED si avvicina al 100%? La risposta è: se si vuole un servizio di post-editing, bisogna pagarlo. È importante sottolineare che anche con un valore PED molto elevato, il carico di lavoro del traduttore non è mai pari a zero: Il traduttore infatti ha effettuato una revisione completa del testo di arrivo, confrontandolo con quello di partenza, ha verificato che il sistema MT abbia applicato la terminologia corretta, magari ha anche svolto ricerche aggiuntive o chiesto chiarimenti, ecc. Il carico di lavoro del post-editing quindi non è mai pari a zero, anche qualora le modifiche fossero minime. Si potrebbe dire che è come chiedere un secondo parere medico: il fatto che entrambi gli specialisti siano giunti alla stessa conclusione non significa che il secondo non abbia dovuto esaminare approfonditamente il paziente.
Previsioni affidabili sul carico di lavoro del post-editing
Calcolando i valori PED sulla base di volumi sufficientemente ampi di testi simili, si può ottenere un’indicazione affidabile del carico di lavoro richiesto e quantificare l’incremento di efficienza. Piccoli campioni non sono una base adatta per questo tipo di analisi, perché potrebbero generare valori PED troppo positivi o troppo negativi e, pertanto, non rappresentativi dei risultati reali medi. Fortunatamente, effettuare test con volumi adeguati non significa aumentare il costo del normale processo di traduzione. Questo è il nostro pane quotidiano, quindi non esitare a chiedere al tuo contatto Acolad un progetto pilota di traduzione automatica e scopri come calcolare il tuo risparmio potenziale.
Qualità della traduzione automatica – Qual è il sistema migliore?
Noi di Acolad sappiamo cosa serve per produrre traduzioni di qualità elevata, e scegliamo i nostri traduttori professionisti e i motori MT di conseguenza.
Potremmo mai lavorare con un traduttore che svolge un ottimo lavoro ma che condivide i contenuti dei clienti sui social o ne svela i segreti professionali? O con uno che non è in grado di rispettare i requisiti tecnici e che introduce regolarmente errori nelle strutture e nei formati XML? Dovremmo essere pazzi! E tu non saresti da meno se rimanessi con un LSP che consente comportamenti simili.
Inoltre, potremmo mai chiedere a un unico traduttore di eseguire traduzioni in tutte le nostre lingue di destinazione e per tutti gli ambiti di specializzazione? Ancora una volta: dovremmo essere pazzi!
Le stesse considerazioni valgono per l’MT, per questo abbiamo sviluppato un approccio decisamente “non da pazzi” per affrontare questa sfida: quando dobbiamo scegliere un motore MT teniamo conto di tutta una serie di criteri, non tutti strettamente correlati alla qualità dell'output linguistico, sebbene si tratti di una tessera cruciale del puzzle. Al fine di applicare la traduzione automatica ai nostri processi in modo sicuro ed efficiente, teniamo conto anche di fattori quali riservatezza, disponibilità di un’offerta di servizio sostenibile (inclusa l’API), costo complessivo e solidità generale del sistema.
Per solidità intendiamo la capacità di produrre una buona qualità linguistica al di fuori delle condizioni di laboratorio, ovvero la tolleranza di errori di battitura del testo di origine, frasi incomplete, formattazioni creative e frasi in lingua straniera nei file di origine. Inoltre, valutiamo la qualità dell’integrazione nel tool della memoria di traduzione.
In definitiva non esiste una soluzione valida per tutti ed è necessario un contesto concreto per determinare quale sia il sistema di traduzione automatica "migliore". La tecnologia si evolve rapidamente e le nostre tecnologie preferite dell'anno scorso potrebbero non essere le migliori di oggi. Noi di Acolad siamo sempre aggiornati sugli sviluppi tecnologici nel settore in modo che i nostri clienti non siano costretti a diventare esperti di traduzione automatica, e monitoriamo il mercato per selezionare il miglior motore possibile per le esigenze di ciascuno di loro.
Conclusione
Alla fine dei conti, è chiaro che i cosiddetti indicatori di qualità dell’MT come BLEU, LEPOR, TER o PED non misurano la qualità in quanto tale. Ma c’è una buona notizia: ci forniscono i KPI di cui abbiamo bisogno per prendere decisioni in merito alla qualità.
In pratica, misurare la qualità linguistica reale di una traduzione, sia umana sia automatica, resta un’attività manuale. Al momento non esiste alcun sistema automatizzato per l’assegnazione di un punteggio di qualità, motivo per cui avere a disposizione gli esperti giusti per tutte le lingue di destinazione rappresenta un vantaggio enorme quando si tratta di scegliere il sistema giusto e valutare le nuove tecnologie.
Dato il ritmo dell'evoluzione tecnologica, potrebbero ben presto apparire all'orizzonte nuove soluzioni automatiche di valutazione della qualità della traduzione. Fino ad allora, Acolad ha tutto sotto controllo.