跳转到内容

教育辅助技术/语音识别软件

来自维基教科书,开放的书籍,开放的世界

以下信息是互联网上关于语音识别软件的资料汇编。在介绍语音转文本是什么以及哪些类型的软件可用之后,提供了它们在教育中的应用。

这是一个典型的计算机麦克风"

语音识别,通常称为自动语音识别计算机语音识别,将口语转换为文本。术语“语音识别”有时用于指识别系统针对特定说话者进行训练的语音识别。大多数桌面识别软件就是这种情况。因此,对于大多数桌面识别软件来说,都包含一个 说话者识别 元素,它尝试识别说话者,这有助于软件识别正在说的话。语音识别是一个广义的术语,这意味着它可以识别几乎任何人的语音。例如,呼叫中心系统旨在识别许多声音。语音识别系统针对特定用户进行训练,它根据用户独特的语音识别他们的语音。[1]

语音识别 应用包括语音拨号(如许多手机内置的拨号),呼叫路由(如您在拨打呼叫中心时遇到的路由)[2]智能家居 设备控制和基于内容的口语音频搜索(如政府使用的一种搜索,用于拾取窃听中所说的关键词),简单的数据输入(如在电话调查中使用的输入)[2],结构化文档的准备(如医疗报告),语音转文本处理(如用于写信或 电子邮件[3],以及飞机 驾驶舱 中的 直接语音输入)。[1][4]

第一个语音识别器出现在 1952 年,它是一个用于识别单个口语数字的设备 [5] [6]另一个早期设备是 IBM Shoebox,在 1964 年纽约世界博览会 上展出。[1]

在美国,语音识别商业应用最显著的领域之一是医疗保健,尤其是 医疗转录员 (MT) 的工作。据行业专家称,语音识别 (SR) 在其最初阶段被当作完全消除转录而不是提高转录效率的一种方式出售,因此未被接受。当时 SR 在技术上也存在缺陷。此外,为了有效地使用它,需要改变医生的工作方式和记录临床遭遇的方式,而许多医生(如果不是所有)都不愿意这样做。然而,语音识别自动转录的最大限制被认为是软件。叙述性听写的性质具有很强的解释性,通常需要人类才能提供的判断力,而自动化系统目前还无法提供。另一个限制是用户和/或系统提供者需要花费大量时间来训练软件。[1]

ASR 中通常区分“人工语法系统”和“自然语言处理”,前者通常是特定领域的,后者通常是特定语言的。这两种类型的应用程序都具有其各自的特定目标和挑战。[1]

Windows 语音识别语音识别 应用程序,包含在 Windows Vista 和最近的 Windows 7 中。[7]

Vista 徽标

Windows 语音识别允许用户通过发出特定语音命令来控制电脑。该程序也可以用于文本听写,以便用户控制他们的 Vista 或 Windows 7 电脑。[7][6]

那些没有明显“命令”的应用程序仍然可以通过要求系统在界面元素上叠加数字来控制;随后可以说出该数字以激活该功能。需要在任意位置进行鼠标点击的程序也可以通过语音控制;当要求这样做时,会显示一个包含九个区域的“鼠标网格”,每个区域内都有数字。用户说出数字,然后在选定区域内放置另一个包含九个区域的网格。这种操作会持续进行,直到要点击的界面元素位于选定的区域内。[7]

Windows 语音识别具有相当高的识别准确率,并提供了一组有助于听写的命令。[需要引用] 包含一个简短的语音驱动教程,以帮助用户熟悉语音识别命令。还可以完成培训以提高语音识别的准确性。[7]

目前,该应用程序支持多种语言,包括英语(美国和英国)、西班牙语、德语、法语、日语和中文(繁体和简体)。[8] 对其他语言的支持正在进行[7]

1993 年,微软从卡内基梅隆大学聘请了黄学东来领导其语音工作。微软一直在进行语音识别和文本转语音的研究。[9] 该公司的研究最终导致了语音 API (SAPI) 的开发。[7]

语音识别技术已应用于微软的一些产品,包括 Microsoft Dictation(一个在Windows 9x 上运行的研究原型)。它还包含在Office XP、Office 2003[10]Microsoft Plus! for Windows XPWindows XP Tablet PC EditionWindows Mobile(作为Microsoft Voice Command[11]。但是,在 Windows Vista 之前,语音识别并未成为主流。作为回应,Windows 语音识别与 Windows Vista 捆绑在一起并于 2006 年发布,使该操作系统成为第一个提供完全集成的语音识别支持的微软 Windows 主流版本。[7]

技术细节

[编辑 | 编辑源代码]

Windows 语音识别依赖于Microsoft SAPI 版本 5.3(包含在 Windows Vista 中)来运行[9]。该应用程序还利用 Microsoft Speech Recognizer 8.0 for Windows 作为其语音配置文件引擎。[7]

Apple Computer 徽标

MacSpeech 是一家为Apple Macintosh 电脑开发语音识别软件的公司。2008 年,其之前的旗舰产品iListenDictate 取代,该产品现在基于Nuance 授权的Dragon NaturallySpeaking 引擎。MacSpeech 由现任首席执行官 Andrew Taylor 于 1996 年创建。[12] MacSpeech 是唯一一家为 Macintosh 开发语音听写系统的公司。其完整的产品线致力于语音识别和听写。[13]

第一个面向Mac OS X 的商业语音听写产品是IBMViaVoice,但ScanSoft(拥有 ViaVoice 全球独家分销权的公司)与Nuance 合并,并停止了 ViaVoice 的 Macintosh 版本开发。(Mac OS 9 的第一个听写软件是 Articulate System 的 PowerSecretary。)[14][13]

在 2008 年MacWorld Expo 上,MacSpeech 新发布的 Dictate 荣获 MacWorld 2008 年最佳展品奖。[15][13]

Dragon NaturallySpeaking

[编辑 | 编辑源代码]

Dragon NaturallySpeaking 是由Nuance CommunicationsWindows 个人电脑 开发和销售的语音识别 软件包。Dragon NaturallySpeaking 的最新版本是 11.0 版,于 2010 年 8 月发布。与之前的版本(10.1 版)一样,该软件包支持Windows XPVista7 的 32 位和 64 位版本。[16][17][18] 此最新版本的四个版本分别是家庭版、高级版(以前称为“首选版”)、专业版和法律版。Nuance Communications 声称这些最新版本比 Dragon 10 版本“开箱即用”的速度更快,准确率提高了 15%。[2]

NaturallySpeaking 使用了极简的用户界面。例如,口述的单词会以悬浮的 工具提示 形式显示,当说话者暂停时,程序会将这些单词 转录 到光标所在位置的活动窗口。该软件具有三个主要功能领域:语音输入、文字转语音和命令输入。用户不仅可以进行语音输入并将其转换为文字,或者将文档合成音频流,还可以发出命令,这些命令会被程序识别为命令。此外,语音配置文件可以通过网络环境在不同的计算机上访问,但音频硬件和配置必须在两台机器上保持一致。[19][18]

历史

[edit | edit source]

James 和 Janet Baker 博士于 1982 年创立了 Dragon Systems,发布了以其语音识别原型为中心的系列产品。[20] DragonDictate 首次发布用于 DOS 系统,并利用了 隐马尔可夫模型,这是一种使用统计学方法进行语音识别的技术。当时,硬件功能不足以解决 单词分割 问题,DragonDictate 无法在连续语音输入过程中确定单词边界。用户被迫一次只发一个音,每个音之间必须清晰地暂停。DragonDictate 基于 三元组 模型,被称为 离散 语音识别引擎。[21] [22][18]

Dragon Systems 在 1997 年发布了 NaturallySpeaking 1.0 作为其第一个连续语音输入产品。[23] 之后,该公司在 2000 年 6 月被 Lernout & Hauspie 收购,该企业曾卷入财务丑闻,如《纽约时报》所报道的那样。[24] Lernout & Hauspie 破产后,Dragon 产品线的权利被 ScanSoft 收购。2005 年,ScanSoft 实际收购了 纽昂斯通讯,并更名为 纽昂斯[25][26][18]

其他软件

[edit | edit source]

您可以在维基百科上找到其他软件,点击此处

教育应用

[edit | edit source]

Dragon 语音识别高级版(以前称为“Preferred”和“Professional”)解决方案符合美国残疾人法案 (ADA) 第 508 条的要求。这些产品是纽昂斯通讯通过教育许可以“学术价格”提供给符合条件的教育个人和机构的众多产品之一 (http://www.nuance.com/for-business/by-industry/education/education-validation/eligibility_definitions/index.htm)。此外,纽昂斯还提供各种软件许可计划,例如他们的开放许可计划 (OLP),以满足大量需求。通过企业对企业关系的效率,其价值在于比桌面产品更具成本效益。

语音识别软件广泛应用于每个人,价格也相当合理。因此,教师需要考虑如何使用这种类型的软件来增强他们的课程。使用这种类型的软件可以改善学生教育的几种方法,其中一些列举如下。

帮助有身体残疾的学生

[edit | edit source]

帮助有身体残疾的学生在课堂上取得成功对任何老师来说都是一项挑战。找到让这些学生与其他学生进行相同活动的方法需要花费很多时间,并且要求教师充分了解学生的局限性。最具挑战性的可能是始终牢记,这些学生仍然拥有与其他学生相同或更好的智力能力。

使用语音识别软件可以让肢体和手部活动能力有限或没有的学生能够像其他非残疾学生一样使用计算机制作打字报告、管理软件和进行研究。[27]

帮助有学习障碍的学生

[edit | edit source]
学生写论文

有学习障碍的学生在学习方面会遇到各种各样的困难。有些学生在阅读和写作方面有困难。尽管语音转文字软件无法帮助这些学生提高他们的拼写能力,但它可以让学生在写作时不必担心拼写问题。让学生把他们的想法写下来可以帮助老师与学生一起改进他们的语法。改进学生写作中的语法可以帮助学生纠正他们的口语语法。[27][28]

对于许多能够拼写的有学习障碍的学生来说,打字过程会让他们感到沮丧。因此,语音转文字软件可以帮助他们加快写作速度。当有学习障碍的学生注意力难以集中时,坐下来打字写论文会非常困难,因此这些语音转文字软件可以帮助这些学生将写作提升到新的水平。[27][28]

阅读教学

[edit | edit source]

语音识别软件的进步创造了一个环境,学生可以在电脑上朗读,电脑可以评估他们的阅读能力。关于这种个性化学习方法的研究显示出潜力,但软件尚未达到完全教学所需的水平。目前的软件需要教师的监督,以帮助有困难的学生。这项技术并不新鲜,它已经得到了改进,但它在过去所面临的许多问题仍在克服中。 [29][30]这种技术的使用优势在于,它让教师能够针对每个学生进行差异化教学,并允许阅读水平较高的学生不被学习有障碍的学生拖累。 [31]

语言学习

[edit | edit source]

语音识别软件最具创意的用途之一是帮助语言学习。有语言软件可以检查学生说语言的能力。例如,学习西班牙语的学生可以被要求说出特定的西班牙语单词。然后电脑可以评估他们正确说出这些单词的能力。该软件还可以通过将一段文字从他们的母语翻译成西班牙语来发挥作用。在这种情况下,可以要求学生用母语默读文章,然后告诉电脑西班牙语的表达方式。最后,该软件可以用西班牙语跟学生说话,然后评估学生对原始语句的反应,以确定是否正确。在所有这些情况下,每个问题都必须被编程到电脑中。不过,未来电脑可能具备评估学生回答并用自己的定制回答进行回复的能力。[32]

未来设计

[edit | edit source]

语音识别的未来充满了无数的邀请。虽然这项技术已经存在了50多年,但软件还有数百种潜在的应用和改进将要实现。一些即将出现的项目包括:可用于帮助语言障碍的通用翻译器[33]、改进的阅读教学软件、具有更好交互的一对一教学工具以及语音激活的研究工具[34]

语音识别最引人注目的可能性之一是,有一天电脑可能能够理解我们的评论并用它们自己的想法进行回复。在这一点上,语音识别可能会变成语音理解。 [3]想象一下,你对你的闹钟说“在早上6点叫我起床”,它会回复你:“我刚连接了你的手机日历,看到你明天的第一个约会是7点,从这里到那里需要30分钟。你想在5点半起床吗?”虽然这听起来像科幻小说,但这种通信和解释的可能性今天就存在,它们只需要被整合在一起。

这个例子可以从这个视频中看到,它展示了一副纸质眼镜可以变成音频和视频录制器,正如作者指出的那样,最终这些眼镜将能够连接到我们的智能手机,这样我们就可以用眼镜进行通信,让我们的电脑屏幕图像出现在眼镜内部,然后我们可以通过语音命令操作显示在眼镜上的桌面环境,从而创造一个完全免提、无处不在的电脑。 [35][36]

参考文献

[edit | edit source]
  1. a b c d e http://en.wikipedia.org/wiki/Speech_recognition
  2. a b http://www.lumenvox.com/company/edu/
  3. a b http://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm
  4. http://cslu.cse.ogi.edu/HLTsurvey/ch1node4.html
  5. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
  6. a b http://www.microsoft.com/windowsxp/using/setup/expert/moskowitz_02september23.mspx
  7. a b c d e f g h http://en.wikipedia.org/wiki/Windows_Speech_Recognition
  8. Windows Speech Recognition in Windows Vista
  9. a b Talking Windows: Exploring New Speech Recognition And Synthesis APIs In Windows Vista
  10. Using speech recognition for the first time in Office - Help and How-to - Microsoft Office Online
  11. Speech Recognition for the Pocket PC :: May 2002
  12. MacSpeech - Speech Recognition Solutions for Mac OS - The MacSpeech Story
  13. a b c http://en.wikipedia.org/wiki/MacSpeech
  14. [1]
  15. Macworld | Editors' Notes | Macworld Expo Best of Show award winners
  16. "Nuance product support for Microsoft Windows Vista". Retrieved 2009-12-15.
  17. "Nuance product support for Microsoft Windows 7". {{cite web}}: Cite has empty unknown parameter: |1= (help)
  18. a b c d http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
  19. http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
  20. "Dragon Systems history". Retrieved 2010-02-03.
  21. "DragonDictate 产品信息". 检索于 2010-02-03.
  22. http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
  23. "Dragon NaturallySpeaking 1.0 发布". 检索于 2010-02-03.
  24. "Dragon Systems 被 Lernout & Hauspie 收购". 纽约时报. 2001-05-07. 检索于 2010-02-03.
  25. "ScanSoft 和 Nuance 合并". 2005-05-09. 检索于 2010-02-03.
  26. http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
  27. a b c http://www.rehabtool.com/forum/discussions/97.html
  28. a b http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VCJ-3XMGN91-3&_user=10&_coverDate=08%2F31%2F1999&_rdoc=1&_fmt=high&_orig=search&_sort=d&_docanchor=&view=c&_searchStrId=1215028011&_rerunOrigin=google&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=fc3ce5bd58895ec5faac3b22472080a2
  29. http://www.eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=ED292059&ERICExtSearch_SearchType_0=no&accno=ED292059
  30. http://www.eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=EJ738601&ERICExtSearch_SearchType_0=no&accno=EJ738601
  31. http://www.neirtec.org/reading_report/report.htm
  32. http://www.speechtechmag.com/Articles/Column/The-Human-Factor/Speech-Recognition-in-Education-Unexploited-Opportunities-29807.aspx
  33. http://ebiquity.umbc.edu/blogger/2006/11/01/darpa-speech-to-speech-research/
  34. http://www.worldthinktank.net/art128.shtml
  35. http://www.feld.com/wp/archives/2010/01/speech-recognition-is-only-part-of-the-future.html
  36. http://my.advisor.com/doc/05918
[编辑 | 编辑源代码]
华夏公益教科书