机器翻译/评估

为什么我们需要评估

在许多 NLP 任务中，研究人员需要知道他们对算法的更改是否提高或降低了整体性能。在 MT 中，我们评估 MT 系统的性能。

MT 的评估比许多其他 NLP 任务更难，因为一个句子的完美翻译并不只有一个，有很多语义等价或相似的句子。

要做
在这里举一个例子

评估什么？

流畅度

翻译是否按自然词序排列？文本是否流畅？是否包含语法错误？

充分性

翻译是否保留了原文的含义？部分含义是否丢失、添加或扭曲？

可理解性

翻译是否可以理解？

人工评估

在人工评估中，注释者通常在 5 分制上评估之前的质量^{[需要引用]}。

充分性		流畅度
5	所有含义	5	完美英语
4	大部分含义	4	良好
3	很多含义	3	非母语
2	少量含义	2	不流畅
1	没有含义	1	难以理解

要做
在这里添加注释工具的示例

人工评估的缺点很明显，因为它是

慢的，
昂贵的，
主观的

注释者间一致性 (IAA) 研究表明，人们在评估流畅度方面比评估充分性方面意见一致程度更高^{[需要引用]}。

评估可以被表述为两个候选翻译的比较，这对于注释者来说可能更容易评估。它可以提高 IAA^{[需要引用]}。

后期编辑时间

节省的成本

自动评估

由于人工评估非常缓慢且昂贵，因此使用自动方法。

悖论在于，我们让计算机评估自动翻译，这就像让学生校对自己的文章一样。问题还在于自动方法通常为给定的参考和候选句子对输出一个分数，而这个分数并不容易解释。

主要前提是拥有参考人工翻译（黄金标准），这些翻译会与 MT 系统的候选翻译进行自动比较。每个候选翻译都会与一个或多个参考翻译进行比较，然后自动指标量化这种比较。

召回率和准确率

这两个指标来自信息检索 (IR)，也用于评估许多 NLP 任务。它们的调和平均数称为 F-score，它将这两个指标组合成一个更容易处理的分数。为了应用于 MT 质量评估，我们需要将候选句子和参考句子表示为词袋 (BOW)。

${\text{F-score}}=2\times {{{\text{precision}}\times {\text{recall}}} \over {{\text{precision}}+{\text{recall}}}}$

准确率定义为候选句子中正确词语的数量除以候选句子中的词语数量。召回率的分子相同，分母是参考句子中的词语数量。

让我们考虑以下这对句子。机器翻译系统输出：我并没有做错什么，参考翻译：我没有做错任何事。

${\text{precision}}={3 \over 5}=60\%$ ${\text{recall}}={3 \over 6}=50\%$ ${\text{F-score}}=2\times {{0.6\times 0.5} \over {0.6+0.5}}=54\%$

很明显，这个公式没有捕捉到词序，所以如果候选翻译包含所有单词，但以任何乱序排列，F-score 将为 100%。

N 元语法方法

这类评估指标使用候选句子和参考句子之间的 N 元语法精确度。N 元语法有助于捕捉词序。

BLEU

可能最流行的评估指标是 BLEU^{[citation needed]}。它由 Papineni 及其合著者在 IBM 开发。它使用 N 元语法精确度，最高可达 $n=4$ ，并且还会对过短的候选句子进行惩罚。预期正确的翻译将与参考翻译具有相同的长度。

候选句子 c 使用以下公式评分

${\text{BLEU}}=\min(1,{length(c) \over length(r)})(\prod _{i=1}^{4}{\text{precision}}_{i})^{1 \over 4}$

让我们考虑前面的例子，再加上来自系统 B 的另一个候选翻译他没有做错任何事。

要做
添加可视化效果

指标	系统 A	系统 B
$precision_{1}$	3/5	4/6
$precision_{2}$	0/5	3/6
$precision_{3}$	0/5	2/6
$precision_{4}$	0/6	1/6
简洁惩罚	5/6	6/6
BLEU	0.00	0.37

NIST

NIST 代表美国国家标准与技术研究院，它定义了自己的指标，这些指标源自 BLEU 得分。^{[citation needed]} 它根据信息价值对 N 元语法精确度进行加权。

要做
添加一个例子

NEVA

代表 Ngram EVAluation。由于 BLEU 使用 4 元语法精确度，短句子在公式中处于劣势。NEVA 考虑了这一点，以及使用同义词评估风格丰富度。^{[citation needed]}

编辑距离方法

WAFT

代表 Word Accuracy For Translation，使用编辑距离来比较候选翻译和参考翻译。

${\text{WAFT}}=1-{{d+s+i} \over {\max(l_{r},l_{c})}}$

其中编辑操作包括删除、替换和插入。分数通过两个比较句子中较长者的长度进行归一化。

WER

TER，HTER

翻译编辑率。允许将单词交换作为编辑操作。

${\text{TER}}={{\text{the least number of edits}} \over {\text{average length of reference sentences}}}$

TER 可用于多个参考翻译。

要做
示例

评估可以使用手动准备的翻译进行，这种变体称为 HTER（人类 TER）。^{[需要引用]}

其他技术

Meteor^[1]

许多评估指标没有考虑同义词和形态学。当您翻译成英语并在参考翻译中使用“boy”而不是“lad”时，例如“He was such a kind lad”，候选翻译并不错误。但如果使用 n-gram 对翻译进行评分，分数会大幅降低。

为了克服这个缺点，可以在评分中考虑同义词。比较候选翻译和参考翻译的另一个缺点是，有时翻译错误发生在子词级别，例如选择了错误的后缀（单数 vs. 复数）。同样，严格的基于单词的评估方法会给出过低的评分。

METEOR 指标试图通过考虑词干（没有后缀的词）和同义词（取自语义网络 WordNet）来缓解这个问题。它使用多个评分公式，例如 NIST 充分性和 WMT 排名，目前支持英语、捷克语、德语、法语、西班牙语和阿拉伯语。

机器翻译系统的批量评估

比较不同语言对的平均分数很有趣。

要做
添加矩阵并解释“暗”和“亮”列和行

往返翻译

当您拥有在语言 A=>B 和 B=>A 之间进行翻译的系统时，您可以尝试使用所谓的“往返翻译”将句子翻译回源语言。在理想情况下，您将获得相同的句子，但双重翻译的句子通常包含错误，并且在某种程度上，这可以被视为一种评估。

您可以使用 Translate and Back 或 Google Translate 在线尝试。

用于机器翻译评估的释义

为使用标准指标进行更精确的评估生成多个参考翻译。

评估评估指标

由于存在几种自动评估方法，我们想知道哪一种是最好的。为了衡量评估指标的质量，通常使用与人工评估的比较（相关性）。指标的输出与对同一组句子的手工评估的相关性越高，指标被认为越准确。

已经举办了几次专门针对评估评估指标的活动，即 MetricsMATR 和 WMT16 Metrics 任务。

↑ Michael Denkowski 和 Alon Lavie，“Meteor Universal：针对任何目标语言的特定语言翻译评估”，2014 年统计机器翻译研讨会论文集，2014 年

[1] Michael Denkowski 和 Alon Lavie，“Meteor Universal：针对任何目标语言的特定语言翻译评估”，2014 年统计机器翻译研讨会论文集，2014 年

[1]