Lentis/谷歌翻译
谷歌翻译是一种机器翻译服务,用于书面文本、语音和图像中的文本[1]。自2006年推出以来,该服务已在网上和作为应用程序提供,包括离线功能。截至2018年,共有103种语言可用,每天翻译超过1000亿字,其中92%以上的翻译来自美国以外[2]。此外,还有许多功能,例如文本发音、单字字典和“短语集”翻译保存以供日后使用。
2016年,谷歌推出了其神经机器翻译(NMT)系统,该系统是机器学习算法处理复杂数据的框架[3]。通过这种设计,网络首先将原始句子编码为一个单独向量列表,每个向量代表一个单词的含义。一旦句子被读取,解码器就开始生成新句子,使其专注于对相关编码向量的加权分布[4]。这样做的好处是,向量将它们周围的向量纳入上下文,以便一次一个词地产生正确的翻译。与基于短语的机器翻译相比,这种算法将整个输入句子作为一个整体进行翻译,而不是更小的单个块。
谷歌的神经机器翻译目前仅适用于特定语言;但是,还有许多其他语言正在开发中。随着翻译质量的提高,新实现的翻译质量已经非常接近人类水平[5]。
作为一项纠正措施,谷歌翻译采用了一个“翻译社区”。用户可以注册成为特定语言的使用者,检查提供的翻译的准确性,并提供谷歌不确定的词语和短语的翻译。他们还有一个徽章和奖项的激励系统。此外,即使那些没有注册的人也可以点击谷歌翻译的翻译并提供一个替代方案,谷歌会用它来提高翻译质量[6]。
在2018年俄罗斯世界杯期间,谷歌翻译的用量大幅飙升。在俄罗斯境内,总用量增加了30%,包含“世界杯”短语的查询增加了200%[7]。甚至“啤酒”这个词也增加了65%。
2017年,英国一家法院不得不依靠谷歌翻译来通知被告,由于无法找到口译员,诉讼程序必须推迟[8]。虽然这是一个好的使用,但它表明法院还没有准备好依赖该服务本身在实际审判期间进行沟通。
在2017年的美国诉克鲁兹-萨莫拉案[9]中,谷歌翻译被用于警察和司机在交通拦截期间的沟通,这导致了非法物质的发现和克鲁兹-萨莫拉先生的逮捕。问题是克鲁兹-萨莫拉先生是否能够在通过谷歌翻译提出的问题的基础上,对搜查他的汽车表示知情同意。警察问的问题是,“我可以搜查汽车吗?”,翻译成 “¿Puedo buscar el auto?”。虽然从字面上来说是正确的,但翻译回英文后就变成了“我可以找到汽车吗?”,被告首先回答“我不明白”,在重复问题后,回答“是的,是的。请便。” 法院裁定,警察不能用谷歌翻译可靠地与他人交谈,因此无法获得他人的同意。此案为谷歌翻译在美国法庭上不足这一先例确立了 precedent。
由于训练翻译试图使材料与外国受众相关,因此谷歌翻译有可能学习到有趣的“翻译”。例如,它将俄语中的“伊凡雷帝”翻译成英语中的“亚伯拉罕·林肯”[10]。这种现象可能是由于翻译人员使用这些姓名作为强大中央领导人的例子,他们的受众会认得。
尽管 Google 翻译非常智能,但它无法替代人类的判断。考虑一下葡萄牙语的习语“tirar onda”,意思是“开玩笑”。 Google 翻译逐字翻译成“乘浪”。人类翻译会意识到这个短语不是字面意思的翻译。用户如果对源语言或目标语言不熟悉,而依赖机器翻译可能会导致混淆和错误,因为他们无法运用自己的最佳判断。
Google 也有能力捕捉语言背后的深层含义,即使有时它不应该这样做。例如,将“I’m a flat-earther”从英语翻译成法语时,翻译成“I’m a crazy person”。它发现当人们使用“flat-earther”这个词时,指的是一个有非寻常信念的人。然而,随着真正相信地球是平坦的人越来越多,该系统无法应对该词对这群人的字面含义。
这种错误信任现象的一个例子甚至不涉及该服务。 2008 年,威尔士的一块双语路标将“我现在不在办公室。请将所有需要翻译的工作发送给我”作为该标牌英文信息的威尔士语翻译[11]。具有讽刺意味的是,在这种特殊情况下,道路规划人员本可以使用 Google 翻译来发现错误。
Google 翻译基于人类创建的翻译,这些翻译通常将原始文化概念替换为目标受众的文化概念。这为人类偏见提供了出现的机会。例如,在加泰罗尼亚语中输入“Barcelona, Catalonia”时,西班牙语翻译为“Barcelona, Spain”。[12] 这种翻译反映了西班牙文化中关于加泰罗尼亚独立的民族主义情绪。
Google 翻译主要从联合国和欧洲议会记录以及《哈利波特》等翻译成多种语言的畅销小说中学习。[13]。因此,存在着以欧洲为中心,特别是以盎格鲁为中心的偏见。在意大利语和西班牙语等两种类似语言之间进行翻译,可能会因为英语与每种语言的距离而引入错误,而联合国或欧盟中作用较小的国家的语言源材料较少,因此翻译的准确性较低。
Google 翻译还根据互联网上该语言的翻译文本数量来选择添加到其列表中的语言[14]。这意味着,互联网上代表性不足的群体,特别是那些互联网接入较少的群体,不太可能很快看到他们的语言被提供。这形成了一个反馈循环,即互联网上语言文本较少的群体无法使用 Google 翻译,因此他们对互联网的可访问性有限,这反过来又使得将他们的语言文本放到互联网上变得更加困难。提高对小型语言群体或濒危语言使用者的可访问性是 Google 翻译未来面临的一个问题。
发现 Google 的人工智能反映了人类在性别方面的刻板印象。这在许多翻译中都有体现,特别是从中性词到包含性词的翻译。在翻译过程中,系统使用来自其数据库的源文档作为输入,并学会根据其获得的知识给出结果[15]。这使系统能够遵循英语中现有的和以前的模式。例如,根据 DATAUSA 的 2016 年研究,77.5% 的计算机科学家被记录为男性,而 89.3% 的注册护士为女性[16]。因此,在从英语翻译成意大利语时,通常会看到“程序员”这一职称的男性词语代替女性词语。从统计学角度而言,鉴于系统反映的数据,它给出了一个合理的结果。
像 Google 翻译这样的技术可以降低国际化的障碍。然而,正如 Google 翻译的性别偏见、英语化效应和可访问性问题所证明的那样,重要的是要质疑我们使用的技术如何影响我们在不同文化之间的互动,以及它可能在不知不觉中强加了什么标准或文化不平等。
人工智能有局限性,但正在迅速弥合差距。此外,正如威尔士案例所示,人类本身也不完美。这就提出了两个问题:我们对人工智能有什么标准,这是一个公平的标准吗?正如克鲁斯-萨莫拉案所显示的那样,人工智能的缺陷在目前尚不可接受,至少在法律面前是如此,但当这种情况不再出现时,我们如何处理这种过渡将在很大程度上取决于我们今天是否进行预先思考。
- ↑ https://translate.google.com/intl/en/about/
- ↑ https://www.languageoasis.com/blog/interesting-facts-about-google-translate-you-must-know/
- ↑ https://deepai.org/machine-learning-glossary-and-terms/neural-network
- ↑ https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html
- ↑ https://1.bp.blogspot.com/-jOLa-LdidQU/V-qV2oJn1aI/AAAAAAAABPg/-6OhKKPhxT89Vs9HhyKMEnyG_0ncWGjJQCLcB/s1600/image00.png
- ↑ https://translate.google.com/community
- ↑ https://www.theguardian.com/football/2018/jul/11/google-translate-world-cup-hero-fans-language-barriers
- ↑ https://www.businessinsider.com/teesside-magistrates-court-forced-to-rely-on-google-translate-because-it-had-no-interpreter-2017-8
- ↑ https://ecf.ksd.uscourts.gov/cgi-bin/show_public_doc?2017cr40100-24
- ↑ https://web.archive.org/web/20070912175216/http://google.blognewschannel.com/archives/2007/09/10/google-translates-ivan-the-terrible-as-abraham-lincoln/
- ↑ http://news.bbc.co.uk/2/hi/7702913.stm
- ↑ https://www.vilaweb.cat/noticia/4177847/20140308/google-translate-converts-barcelona-catalunya-into-barcelona-espana.html
- ↑ https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html
- ↑ https://productforums.google.com/forum/#!topic/gmail/5Tq3xp8KlKE
- ↑ https://www.fastcompany.com/3010223/google-translates-gender-problem-and-bing-translates-and-systrans
- ↑ https://datausa.io/profile/soc/151131/?compare=291141