2024 年 6 月 5 日

机器翻译与 GenAI 翻译：比较分析

神经网络机器翻译还是大语言模型：孰优孰劣？查看 Acolad 的独家研究，了解谁才是毋庸置疑的领导者。

随着人工智能技术的飞速发展，翻译领域也正在经历前所未有的变革。这就引发了一个关键问题：神经网络机器翻译 (NMT) 或更新的大语言模型 (LLM) 能否为翻译任务带来卓越的表现和效率？借助我们的独家研究，您即可以直接了解 NMT 和 LLM 的具体表现。

利用各种评估指标和测试数据集，我们探讨了每种技术的优缺点及其对翻译质量的影响和它们各自的效率与应用。通过研究这些技术，我们旨在发现对于特定的使用案例，哪种解决方案才是适宜的理想之选。加入我们，探索更多内容。

主要亮点

总体而言，这项研究表明，经过充分训练的 NMT 模型在大多数关键指标上的表现都优于生成式 AI。

出色的翻译质量

与接受评估的 LLM 相比，NMT 的 BLEU 平均得分高出 13%。

更好的上下文准确性

在 COMET-QE 中，NMT 的成绩高出 4%，但 LLM 的语言成绩也仍然可以接受，分数达到甚至超过 90%。

减少译后编辑工作

与测试表现最好的 LLM，即 GPT-4 相比，NMT 的译后编辑距离 (PED) 分数低 16%。此外，翻译编辑率 (TER) 也高出 35%，这表明与参考内容相比，必要的校正更少。

方法

这项研究由 Acolad Labs 牵头，以前一阶段的洞见为基础，涉及了真实世界的内容，以确保实用性。研究包括两个主要部分：第一部分侧重纯粹的自动化翻译，对神经网络机器翻译 (NMT) 和大语言模型 (LLM) 的表现进行评估，不进行任何人工译后编辑工作。第二部分涉及采用“人机回圈”方法，由专业语言专家审查和完善机器生成的译文，评估人类与 AI 协作的综合效率和质量。人工审查由第三方语言服务提供商进行，以确保评估的独立性。

这一阶段包括额外的混合层语言，特别是法语、罗马尼亚语、瑞典语和中文。我们使用了基于以前的学习而改进的提示库，并且为 AI 模型提供了增强的术语和风格说明。这包括来自机器翻译的术语表清理技术和跨模型提示抽象技术。我们在 AI 翻译领域引入了更广泛的比较，对多个神经网络机器翻译系统和大语言模型进行了评估。

利用这种综合性方法，我们就可以对企业级语言解决方案的 AI 能力进行详细比较。

第 1 部分

自动化翻译表现评估

在全自动输出分析方面，评估的系统包括：

预训练的神经网络机器翻译引擎
通过定制的 AI 平台 API 访问的大语言模型
各种大语言模型，包括使用大量参数训练的模型和专注于大规模数据处理的模型： OpenAI 的 ChatGPT-4 (Turbo)、Mistral (Large)、Llama 2 (70b) 和 Acolad LLM。

该分析采用了真实世界的内容，包括格式化、带有内联标记进行风格化，以及有术语依赖关系的内容：这些都是常见待译内容类型的典型代表。这些内容使用我们的翻译管理系统以常规方式进行预处理和解析，再将自动输出结果与熟悉测试内容领域的语言专家的专业译文进行比较。

LLM 会收到提示，将其输出限制在特定的术语和风格内，同时我们还采用了其他技术，例如一次性/几次提示抽象，以尝试改进 LLM 输出。值得注意的一点是，不同提供商的 LLM 需要不同的提示策略，特别是在内容的技术结构方面。

然后，通过一系列行业衡量标准对 NMT、LLM 和专业译文内容的输出进行评估：

BLEU（双语评估候补）：这是一种广泛使用的衡量标准，用于比较机器翻译与高质量人工翻译的相似程度，重点关注单词序列的匹配数。

chrF（字符级 F 分数）：BLEU 评估的是单词级别的匹配度，而 chrF 则侧重于输出内容与理想翻译在字符级别的相似度。

COMET（跨语言翻译评价的优化度量）：与依赖统计比较的 BLEU 或 chrF 不同，COMET 利用神经网络预测人类会如何评价机器翻译。

PED（译后编辑距离）：该指标衡量的是将机器翻译输出转化为高质量人工翻译所需的工作量。

TER（翻译编辑率）：与 PED 类似，但 TER 重点关注的是要与参考翻译完全匹配所需的编辑次数。

对于英语到法语语言对而言，Acolad NMT 的表现优于三大 AI LLM：OpenAI 的 ChatGPT-4 (Turbo)、Mistral (Large)、Llama 2 (70b) 和我们自己的实验性 LLM。

它在 BLEU、chrF 和 COMET 这三大质量评估指标中均得分最高。

最近更新的法语 NMT 引擎在 PED 和 TER 指标（越低越好）方面也表现最佳，这两个指标用于衡量译后编辑人员为校正文本必须进行的编辑次数。

如前所述，LLM 的输出在 COMET 指标上表现出色，该指标被认为是衡量结果语言流畅度的良好标准，分数接近甚至超过了 90%。这表明 LLM 在翻译和内容生成方面拥有很好的前景，尤其是像法语这样资源丰富的语言。然而，COMET 的高分数可能与客户对准确性、术语表和风格的期望不一致。

在英语到瑞典语的翻译中，结果类似，NMT 的表现再次全面优于各大 LLM 模型。

对于英语到简体中文语言对而言，除 BLEU 外，NMT 引擎在所有其他指标中均表现最佳。中文等表意语言的结果仍然时好时坏，但随着标记化（将句子分解为更易于管理的大小的方法，如分解为单词或子词）的改进，后续新模型的结果可能会有所改善。值得注意的是，一些专家认为 COMET 是更实用的质量指标。

在我们最后一种测试语言 — 罗马尼亚语中，尽管结果非常相似，但 OpenAI 的 ChatGPT-4 在所有指标上的表现都略优于 NMT 模型。我们的团队将使用此结果进一步迭代并改进该机器翻译模型。与所有 NMT 系统一样，语言模型也必须不断更新、优化。

不过，值得注意的是，即使质量指标的分数较高，LLM 也会出现一些其他意想不到的怪异现象。我们先详细说明一下这些质量分析，然后再探讨此问题。

第 2 部分

人机回圈，专业语言审查

除了评估全自动化翻译输出外，我们还希望引入一项“人机回圈“(HITL) 评估，以确保对翻译质量进行全面评估。所有样本都提供给经过客户培训的语言专家，并以盲测的形式呈现，以确保评估的公正性。语言专家重新评估交付给客户的 MTPE（机器翻译译后编辑）内容，并提供详细的评分卡结果（每种语言五个），包括段落级别的分析和语言专家的评论，以便进一步检查。

HITL 评估显示，虽然 LLM 能够生成可接受的翻译，但仍然存在需要人工干预的重大错误。与 GPT-4 等 LLM 相比，NMT 系统在减少译后编辑工作量方面表现更好，其译后编辑距离 (PED) 和翻译编辑率 (TER) 分数更低。HITL 评估也凸显了在不同语言上存在差异明显的错误率，与法语等其他语言相比，瑞典语等一些语言面临的挑战更大，错误率更高。这表明，人工审查对于复杂语言或鲜少翻译的语言尤其重要。

利用 AI 精确性提升您的翻译质量：体验 Acolad 的自动化工作流程

机器翻译解决方案

对 LLM 和机器翻译的未来的重大意义

今后，LLM 无疑会变得越来越成熟，但就目前而言，经过调整的 NMT 模型似乎能产生更加稳定一致的结果，更易于进行高质量的译后编辑，尤其是在经典翻译管理系统工作流程中处理真实世界的内容时。

另外值得注意的是，经过深度训练的 NMT 模型（使用特定领域的内容和术语）不会受到在使用生成式 AI 时持续存在的技术挑战和怪异现象的影响。

NMT 具有更高的可预测性，特别是随着时间的推移，以及在经过精细训练的语言之间。我们之前还将通用 NMT 输出与 LLM 输出进行了比较，虽然质量较差（译后编辑距更大等），但输出内容的可预测性十分稳定。而对于 LLM，质量则下降迅速，尤其是以非英语语言为源语言，以及通常资源较少的语言。随着时间的推移，内容输出可能会有很大的变化。

其中一个例子就与 AI 幻觉有关，特别是资源相对较少的语言，这会影响输出内容，甚至导致译文毫无用处。如果错误处理技术内容（如 URL、客户或领域特定的术语和短句），这种情况就尤为明显，这意味着在大批量或大规模处理内容时，LLM 还不能产生如此可靠的结果。

一般来说，结合 Acolad 的结果与专家的人工审查来看，虽然 LLM 输出获得相对较高的评分，但它在处理包含结构元素（如格式化和内联标记）的较复杂内容时却很是吃力。

此外，虽说原始处理成本正在下降，但由于需要跨语言和模型管理相对复杂的提示，LLM 技术在翻译工作流程中的普及会增加翻译的总成本。

实际上，如果您需要在没有人工输入或译后编辑的情况下自动翻译大量内容，那么目前最好还是选择优质、成熟的机器翻译解决方案。

正如前面所说，即使利用人机回圈来编辑自动翻译输出，使用机器翻译仍然比使用生成式 AI 更具成本效益，原因很简单，它在迭代提示以优化 LLM 输出的过程中节省了时间。此外，NMT 的译后编辑距离 (PED) 和翻译编辑率 (TER) 也更低，因此与 LLM 相比，NMT 需要的校正工作也更少。

尽管取得了这些结果，但显而易见的是生成式 AI LLM 在自动翻译领域仍有用武之地，尤其是随着模型的不断优化完善。例如，它可用于在语言风格上对 MT 输出进行改写，潜在应用价值可谓巨大。有确凿证据表明，LLM 可以在质量评估方面发挥关键作用，这就有助于提高翻译能力，如自我反思的译后编辑能力。

在处理歧义、习语、文化引用甚至幽默等问题时，LLM 也明确表现出巨大的潜力，而一些 MT 模型在建立模型时所使用的数据集有限，因此历来难以应对这样的内容。