跳转到内容

机器翻译/历史

来自维基教科书,开放世界开放书籍

机器翻译简史

[编辑 | 编辑源代码]

早期(1940年代)

[编辑 | 编辑源代码]

第一台计算机

[编辑 | 编辑源代码]

机器翻译的明显先决条件是计算机。尽管人们对什么是计算机有不同的定义,它们在 1940 年代开始出现。

零代计算机:Z1–3、Colossus、ABC、Mark I、Mark II。然后出现了第一代计算机:ENIAC、MANIAC。

值得注意的是,在 1947 年,RAM 只能存储 100 个数字,并且像这样的简单运算只需要几分之一秒。

信息繁荣

[编辑 | 编辑源代码]

大约在同一时间,世界开始比以往任何时候都生产和广播更多信息。1922年,英国广播公司(BBC)开始定期广播,1936年,BBC电视台也随之成立。

早期信念

[编辑 | 编辑源代码]

当时人们对翻译的看法还很天真。一些研究人员[需要引用]将翻译视为一种重复性的活动,非常适合由计算机执行。为什么不呢:计算机成功地用于破解战争密码,它们似乎也很适合破解语言。

早期繁荣(1950年代)

[编辑 | 编辑源代码]

1950年,沃伦·韦弗(Warren Weaver)向200个收件人发送了一份备忘录,其中概述了机器翻译的一些问题。

  • 多义性(歧义)是一种常见现象,
  • 逻辑与语言的交集,
  • 与密码学的联系,以及
  • 语言的普遍属性。

他的观点可以从一句著名的引言中看出[需要引用]

当我看到一篇俄语文章时,我会说:这实际上是用英语写的,但它用一些奇怪的符号编码了。我现在将开始解码。
—沃伦·韦弗, 来源?

早期对机器翻译的兴趣在多个机构得到推动:伦敦大学(安德鲁·D·布斯)、麻省理工学院、华盛顿大学、加州大学、哈佛大学等等。

1952年,第一次公开会议在麻省理工学院举行,两年后,第一个可工作的机器翻译系统的展示随之而来。

最初的主题包括

  • 形态和句法分析,
  • 意义和知识表示,以及
  • 创建和使用电子词典。


当时,艾伦·图灵(Alan Turing)专注于人工智能,但他没有参与机器翻译研究。[需要引用]

乔治城实验

[编辑 | 编辑源代码]

第一个可工作的机器翻译原型于 1954 年 1 月 1 日在纽约的 IBM 公开展示。这是计算机用于非数值任务的例子。

该实验展示了从俄语到英语翻译 60 个句子(可能是精心挑选的)。该系统包含一个包含 250 个单词的词典和一个包含 6 个规则的基本语法。

由于翻译结果准确,因此该演示在研究人员中引起了强烈的热情,并在美国和苏联催生了许多项目。

理论语言学(诺姆·乔姆斯基)和人工智能(艾伦·图灵)蓬勃发展。


Clipboard

待办事项
连接段落


但很快人们就发现,随着机器翻译系统的覆盖范围越来越广,其输出质量也下降了。

1950年代,计算机首次用于生成艺术作品,例如爱情诗歌(1952年)[需要引用]

第一篇关于机器翻译的博士论文(1954年)获得答辩,《机器翻译杂志》(1954年)开始出版,第一次国际机器翻译会议在伦敦举行(1956年),诺姆·乔姆斯基(Noam Chomsky)撰写了他的著名著作《句法结构》(1957年),第一本关于机器翻译的书籍(入门书)在巴黎出版(1959年)。

除了美国,苏联和日本也关注机器翻译。

失望(1960年代)

[编辑 | 编辑源代码]

1959年,著名的机器翻译批评者耶胡达·巴希勒(Yehoshua Bar-Hillel)写了一篇关于机器翻译现状令人不满的文章。他声称计算机无法解决语言中的一个重要现象:词汇歧义。他创造了“全自动高质量翻译”(FAHQT)这个词,并声称它无法实现。

他举的一个著名的例子是计算机难以处理的句子:小约翰正在寻找他的玩具箱。最后,他找到了。箱子在钢笔里。约翰非常高兴。 其中“钢笔”的使用意义明显不同于该词的常见含义。但为了让计算机消除歧义,它们需要了解世界,并且知道箱子通常不会放在书写工具里。

可能是由于他和其他人批评的结果,机器翻译项目的资金供应开始减少。

当时的苏联机器翻译专注于翻译英文科学论文(摘要)。

1962年,美国机器翻译协会(Association for MT)在美国成立。大约在同一时间,彼得·托马(Peter Toma)离开乔治城[需要引用],开始开发 AUTOTRAN,该系统后来成为 Systran,成为在接下来的几十年中最成功的机器翻译软件之一。

ALPAC报告

[编辑 | 编辑源代码]

对机器翻译研究致命的打击是 1966 年为美国国家科学院准备的 ALPAC 报告(自动语言处理咨询委员会)。

该委员会对机器翻译的质量和可用性进行了分析和评估,并建议美国政府减少对机器翻译研究的支出[需要引用]。它声称研究人员低估了自然语言理解的复杂性,因此,该报告对机器翻译领域产生了深刻的负面影响。

尽管如此,机器翻译研究在欧洲、苏联和日本不受影响,但美国在资金支持下降后花了 15 年时间才追赶上世界其他国家在机器翻译方面的研究。

加拿大的机器翻译研究

[编辑 | 编辑源代码]

当时,在加拿大蒙特利尔大学,机器翻译研究取得了一些成功。研究人员开发了一些可工作的机器翻译系统原型,即 TAUM-73、TAUM-METEO。这些是第一个将源语言的适当分析和目标语言的合成结合在一起的系统。

英法(以及法英)语言对是研究主题。一个名为TAUM Aviation的项目专注于技术手册的翻译,后来被取消了。[需要引证]

后来,METEO 系统在 1981 年至 2001 年期间被用于天气预报翻译。该系统由约翰·陈迪乌开发。

在 1960 年代末,Systran 成立,是开发机器翻译系统最古老的公司之一。同名的软件广受欢迎,后来成为雅虎巴别鱼的基础。它也一直被谷歌使用到 2007 年。

它最初是一个基于规则的系统,但从 2010 年开始,Systran 成为了一个混合系统,也结合了统计方法。

复兴期(1970 年代和 1980 年代)

[编辑 | 编辑源代码]

第一个苏联机器翻译系统 AMPAR 用于将英语翻译成俄语。自 1976 年以来,Systran 一直被用作欧洲经济共同体的官方机器翻译系统。施乐开始使用 Systran。一个项目建议使用世界语作为中介语,但被否决了。

使用中介语的基于规则的系统开始出现。1980 年,罗塞塔项目开始使用逻辑公式作为中介语。

第一个数据驱动(基于实例的机器翻译)出现。机器翻译系统已经足够好,可以产生收入,并被商业化。Trados 是第一家开发 CAT 工具的公司,成立于 1984 年的斯图加特。欧盟项目 EUROTRA 启动。

为了了解背景:1983 年,IBM 推出了其 8 位 ASCII 码,1987 年,Unicode 项目开始。万维网提案在 1989 年问世。

统计机器翻译的兴起(1990 年代)

[编辑 | 编辑源代码]

IBM 为世界贡献了另一颗宝石:统计机器翻译诞生于 1990 年代初。SDL(目前 CAT 市场领导者)于 1992 年在英国成立,后来收购了 Trados。Verbmobil 项目运行于 1992 年至 1999 年之间,它催生了一些机器翻译方法。

雅虎巴别鱼在 1997 年每天的请求量达到 500,000 次[需要引证]。第一个在线商业机器翻译服务 iTranslator 出现。

在这十年中,基于规则的系统仍然主导着这个领域。

新千年

[编辑 | 编辑源代码]

统计方法取代了该领域,第一个混合系统开始出现。随着新数据的收集和数字化,新的翻译语言对(语言)被添加到机器翻译系统的库中。

NIST 在 2001 年启动了第一轮机器翻译系统基准测试。

EuroMatrix 是一个大型的由欧盟资助的项目,它于 2006 年启动,Moses 是一款高度成功的(因为它是开源的)统计机器翻译引擎,它于一年后诞生。


Clipboard

待办事项
添加一个来自那个时代的预后图表


计算能力稳步增长,谷歌是领军者之一。例如,使用一种新的海量数据技术 MapReduce,研究人员仅用 6 个小时就成功地在 4,000 台计算机和 48,000 块硬盘上对 100 亿个 100 字节的记录进行排序。计算能力允许在眨眼之间处理数十亿个单词,并且得益于像 Moses 这样的项目,机器翻译变得对每个人都可用。


Clipboard

待办事项
新的数据结构,后缀数组和树



Clipboard

待办事项
谷歌 N-gram


与此同时,新的平行数据正在开发中。有一些专门的活动(LREC)定期展示来自世界各地语言的新资源。对资源不足的语言也进行了处理,总的来说,机器翻译质量缓慢但稳定地提高。

2010 年及以后

[编辑 | 编辑源代码]

人们对源语言和目标语言有不同的兴趣。资源不足的语言往往被忽视。在欧盟,重点是所有官方语言(英语、保加利亚语、捷克语、克罗地亚语、丹麦语、爱沙尼亚语、芬兰语、法语、爱尔兰语、意大利语、立陶宛语、拉脱维亚语、匈牙利语、马耳他语、德语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、希腊语、斯洛伐克语、斯洛文尼亚语、西班牙语和瑞典语)。说英语的国家将其视为主要的目标语言。相反,全球市场和公司希望将他们的产品推向世界各地的人们,因此目标语言是发达国家的语言,源语言通常是英语。

从某种意义上说,有些语言(和语言对)比其他语言更大(通常在数字媒体中覆盖得更好)。它们也实现了更好的翻译质量(英语-西班牙语、英语-法语)。

统计方法通过语言学技术(句法、语义)和神经语言模型来增强,以实现最先进的结果。

谷歌翻译被认为是金标准。

形态丰富的语言通常更难翻译。

英语-XXX 和 XXX-英语语言对占很大比例。

模板:待办事项:引文和更流畅的文本

自 2015 年以来,统计方法正在慢慢被神经网络技术取代,并在排行榜上名列前茅。

机器翻译现在由于智能手机的存在而随处可见。它用于获取大意,用于网页的即时翻译(可能是机器翻译最常见的用途[需要引证]),用于加快 CAT 工具中的人工翻译,用于跨语言信息检索(CLIR),用于移动设备上的即时消息和其他电子通信,用于翻译语音到语音,甚至图像到图像。


Clipboard

待办事项
添加示例


关于机器翻译历史的进一步阅读

[编辑 | 编辑源代码]

在线资源

[编辑 | 编辑源代码]
华夏公益教科书