语言/言语理解和言语产生的神经认知

引言

语言被定义为意义的符号表示系统，这一术语并不局限于特定的交流方式，而是适用于言语以及其他几种形式，例如书写或聋哑人的手语，但也包括例如基于逻辑的计算机语言。然而，我们对语言的日常理解的核心是言语。这是人类语言进化的形式，即使在今天，估计的 6000 到 7000 种口语中只有大约 200 种也以书面形式存在。本章探讨了人们每次参与对话时所付出的认知努力：言语产生和理解是两个互补的过程，它们介于所言的意义（被认为独立于语言而表示）和说话者之间交换的声学信号之间。两种转换方式都包括许多处理不同言语单元的步骤，例如音韵特征、音位、音节、词语、短语和句子。简单地说，这些步骤在言语产生中按自上而下的顺序执行，在言语理解中按自下而上的顺序执行。尽管科学界对言语理解和产生的总体结构存在共识，但仍存在许多竞争性模型。本章将介绍其中一些模型以及来自实验心理学的证据。本章的理解部分从声波如何转化为音位（最小的意义单位）开始，然后讨论词语级别的处理。句子理解 - 在语言层次结构中紧随词语处理之后 - 在本章中尚未讨论，维基社区被要求添加一个关于这个问题的章节。在处理言语产生的部分，读者将被介绍到将信息转化为一系列词语的计划，词汇化问题（即找到合适的词语）以及最终的步骤，直到产生所需声音的运动产生。

言语理解

毫无疑问，言语理解是人类高度发达的能力，因为尽管言语信号高度复杂，但它几乎自动发生，并且速度惊人：我们可以以每秒 20 个音位的速度理解言语，而在非言语声音序列中，只有当声音以每秒 1.5 个声音的速度呈现时才能区分声音的顺序（Clark & Clark，1977）。这第一个暗示表明，与其他声音相比，言语包含更多信息，必须存在利用这些信息的机制来促进处理。

音位感知

我们理解话语的方式的起点是到达我们听觉系统的声学序列。作为第一步，我们必须将言语信号与其他听觉输入分离。这是可以做到的，因为言语是连续的，而背景噪音通常不是，并且因为在我们的一生中，我们的听觉系统学会利用频率等声学特性将声音分配给可能的来源（Cutler & Clifton，1999）。接下来，我们必须将构成顺序言语信号的单个声音识别为片段，以便我们将它们与意义联系起来。言语理解的早期部分也被称为解码。最小的意义单位是音位，它是一个可区分的单个声音，在大多数情况下对应于字母表的特定字母。然而，字母可以代表多个音位，就像“u”在“hut”和“put”中一样。语言学家通过特定的发音方式来定义音位，即参与发音的口腔器官和运动方式。例如，英语音位 /k/ 被定义为“软颚清辅音”（Harley，2008）。共享某些发音特征，因此也共享音韵特征的音位看起来更相似，并且更容易混淆（例如 /k/ 和 /g/ 听起来比 /k/ 和 /d/ 或 /e/ 更相似）。

解码将声学言语信号转换为语言表示。

音位最小的语言单位，它会影响意义，同时也是最小的音韵单位，被感知为不同的声音。通常与字母表的特定字母相关联。

音位的范畴感知

虽然我们将语音声音感知为音位，但认为语言的声学水平和音位水平是相同的，这是错误的；相反，通过学习我们的第一语言，音位塑造了我们的感知。音位是包含具有不同声学特性的声音的类别，它们在不同的语言之间有所不同。也许最著名的例子是，日语母语人士最初难以区分欧洲音位 /r/ 和 /l/，这在日语中构成一个音位。同样，印地语使用者区分两种声音，而欧洲人则将这两种声音都感知为 /k/。学习到的区分模式被严格地应用，导致音位的范畴感知：人们通常将声音感知为一种音位或另一种音位，而不是介于两者之间。当向参与者呈现沿两个音位之间连续体在声学上变化的人工音节时，证明了这种效果。在某一点，在两个音位中感知到其中一个音位的范围内存在一个“边界”（Liberman、Harris、Hoffman & Griffith，1957）。然而，发现如果要求这样做，我们能够检测到属于同一音位类别的两个声音之间的微小差异（Pisoni & Tash，1974）。因此，似乎范畴感知不是早期处理的必要条件，而是一种用于简化理解的习惯。关于范畴感知究竟是如何发生的，仍然存在争议。似乎不可能将感知到的声音与相应音位的“完美范例”进行比较，因为需要大量的每个音位的“完美范例”才能应用于不同年龄、性别、方言等的说话者（Harley，2008）。

同化

无论如何，假设音位感知可以依赖于音韵特性本身的理论面临着两个基本问题：不变性和分割问题。不变性问题是，同一个音位在不同的音节环境中听起来可能会有所不同。这是由于同化作用，这意味着，当一个声音被发音时，发音器官已经适应了下一个声音所需的部位。因此，有人认为音节比音位更不变。也许这可以部分解释以下发现：参与者对单个音位的反应时间比对音节的反应时间更长（Savin & Bever，1970），这导致作者认为音节首先被处理。无论是否如此，毫无疑问，听者利用了每个音位包含的关于周围音位的信息，因为同化信息中的实验性失配（即音位以不适合下一个音位的方式发音）导致音位识别的反应时间更长（Martin & Brunell，1981）。因此，不变性问题表明音节是介于音位的意义承担作用及其不同的声学形式之间的单位。

分割

分割问题指的是将连续的言语信号划分为其组成部分（即音位、音节和词语）的必要步骤。分割不能仅仅通过使用信号的物理特征来完成，因为声音会混在一起，不容易分开，而这不仅发生在词语内部，也发生在词语之间（Harley，2008）。如果我们查看声学言语信号的声谱图显示，我们很难分辨音位、音节或词语之间的边界（图 1）。也许我们从言语信号中找到的分割的最佳起点是它的韵律，特别是节奏。它在不同的语言之间有所不同，导致不同的分割策略：法语的节奏非常规律，音节没有太大收缩或扩展，这允许基于音节的分割。相反，英语强烈区分重读音节和非重读音节，这些音节可以扩展或收缩以适应节奏。因此，英语中的节奏分割是基于重音的，产生的单位也被称为 音韵词语 ，它们由一个重读音节和相关联的非重读音节组成，并且不一定对应于 词汇词语 （例如，“select us”是一个音韵词语；Harley，2008）。重音结构对语音识别的重要性在参与者必须在非语音信号中检测特定字符串时得到了证明。当目标位于一个音韵词语内时，他们的反应比跨越音韵词语边界时更快（Cutler & Norris，1988）。在相同的任务中，也证明了音节知识的使用，因为与正常音节相对应的字符串比更短或更长的字符串检测得更快（Mehler、Dommergues、Frauenfelder & Segui，1981）。分割的另一个目标似乎是将所有感知到的声音分配给词语。因此，在非词语中检测嵌入的词语更困难（因为速度更慢），当剩余的声音没有像词语一样的音韵结构时（例如 fegg，而不是 maffegg；Norris、McQueen、Cutler & Butterfield，1997）。

分割将连续的言语信号划分为其底层的语言单位，如音位、音节和词语。

韵律语音中的音调和节奏特征，例如重音模式和语调。韵律在口语中可能包含意义；它在书面语中不存在。

音韵词 韵律单位，包含一个重读音节。它可能包含一个词汇词，但可以更长或更短。

词汇词 作为意义单位的词语；对应于“词语”的日常理解。

自上而下的反馈

刚刚描述的过程作用于更高级别的单位，但有证据表明（但也存在强烈争议）这些单位对音素识别的自上而下的反馈。一项证据是所谓的词汇识别偏移，这种偏移发生在研究设计中，这些设计检查了音素的范畴感知，这些音素的声音在两个音素之间连续变化。如果这些音素在词语语境中出现，参与者会改变他们的判断，偏向于创造有意义词语的音素（例如，在词语 *iss 中，偏向于 /k/ 而不是 /g/）（Ganong，1980）。如果一个句子中说出的一个词语的音素被剪掉并替换成咳嗽声或音调，则可以观察到音素恢复。参与者通常不会报告有音素丢失 - 即使他们被告知音素已被替换，他们也会感知到单词中预期的音素。如果同一个词语带有咳嗽声代替音素被插入到不同的句子中，每个句子都为不同的词语提供语境支持（例如，“The *eel was on the orange.” vs “The *eel was on the axle.”），参与者报告他们感知到了语境预期词语所需的音素（Warren & Warren, 1970）。请注意，承载内容信息的词语出现在要恢复的音素之后。因此，人们质疑究竟是音素感知还是处理的后期阶段导致了恢复效应。似乎虽然确实存在感知音素恢复（因为参与者无法区分包含恢复音素和实际听到的音素的词语），但语境效应必须通过词语意义提取后的处理阶段来解释（Samuel, 1981）。音素识别的双编码理论（Foss 和 Blank，1980）指出，我们可以使用两种不同的信息来源来识别单个音素： 词前码，它从声学信息中计算得出，以及 词后码 ，它来自对更高级别单位（如词语）的处理，并产生自上而下的反馈。不同研究设计的结果被解释为使用其中一种信息来源的结果。在非词语中识别某个音素与在词语中一样快，这表明使用了词前码，而当在句子中出现时，如果该音素是句子语境中预期的词语的一部分，则识别速度更快，而不是如果它是意外词语的一部分，这可以被视为词后处理的结果。然而，词后码使用的证据过于有限，无法支持它是一种普遍应用的策略的观点。

词前码 词语识别之前语音的编码方式。它仅仅基于音韵信息。

词后码 词语识别之后语音的编码方式。它包含语义和句法信息。

词语识别

词语的识别可以看作是语音理解的一个转折点，因为它是词语级别，在这个级别上表示了我们用来破译话语意义的语义和句法信息。在上一段中介绍的术语中，这种词语级别的信息就是词后码。在这里，语言的符号特征开始发挥作用：与词前码不同，词后码不是从语音信号的声学特征中派生出来的，而是从听众对词语的心理表征中派生出来的（包括意义、语法属性等）。大多数模型提出了一个心理词典，即词汇。当一个音韵串成功地映射到词汇中的一个条目上（词后码变得可用）时，被称为词汇访问（Harley，2008；Cutler & Clifton，1999）。词语识别的程度与语音理解层次结构中其他级别的处理重叠多少存在争议。音素识别和词语识别可以同时进行，至少研究表明，音素识别并不需要在词语识别开始之前完成（Marslen-Wilson & Warren，1994）。关于语境对词语识别的作用，理论可以定位在两个极端位置之间：自主位置认为，语境只能与词后码交互，但不会影响词语识别本身。最具体地说，应该没有来自处理后期阶段（即短语或句子级别）到早期阶段的反馈。然而，根据交互观点，正是这种结构语境被用于词语识别。在许多词语识别模型中，将介绍两个模型，即：群体模型和TRACE模型。

词汇一个心理词典，一旦识别出词语，就会从该词典中回忆起每个词语的意义和句法属性。

群体模型

群体模型（原始版本：Marslen-Wilson & Welsh，1978；后期版本：Marslen-Wilson，1990）提出了词语识别的三个阶段：访问阶段在我们听到一个词语的开头时开始，并从我们的词汇中提取出一系列可能匹配的候选词，即所谓的群体。因此，一个词语的开头对于理解尤为重要。初始群体以自下而上的方式形成，不受语境的影響。随着更多词语部分被听到，选择阶段随之而来，在这个阶段中，不再匹配的候选词的激活水平逐渐衰减，直到选择出最匹配的词语。不仅音韵证据，而且句法和语义语境也被用于这个选择过程，特别是在其后期阶段。词语识别的前两个阶段是词前的。词语的识别点可以，但也经常不会，与它的唯一性点一致，即初始序列对一个词语是唯一的点。如果语境信息可以被用来剔除候选词，则识别点可能会在唯一性点之前发生，而如果没有任何帮助的语境信息并且声学信号不清楚，则它可能会在唯一性点之后发生。在识别点，第三阶段，即词后阶段，整合阶段开始，在这个阶段中，所选词语的语义和句法属性被利用，例如将其整合到句子的表征中。与该模型一致的是，如果实验产生的错误出现在词语的最后部分并且存在强烈的语境信息，则参与者在重复短语时更容易忽略这些错误，而如果这些错误出现在开头并且语境不明确，则会引起混淆（Marslen-Wilson & Welsh，1978）。

TRACE模型

TRACE（McClelland & Elman，1986）是一个连接主义的语音识别计算机模型，这意味着它由许多相互连接的处理单元组成。这些单元在不同的级别上运行，代表音韵特征、音素和词语。激活在单元之间双向传播，允许自下而上和自上而下的处理。在同一处理级别的单元之间，存在抑制连接，这些连接使这些单元相互竞争，并模拟音素范畴感知等现象。在词语级别，也有证据表明候选词之间存在竞争（即相互抑制）：嵌入在非词语字符串中的词语，如果非词语部分与其他现有词语相似，则需要更长的时间才能被检测到，而不是如果它不相似。研究表明，这种效应与之前讨论的基于重音的分割的影响同时发生且独立于该影响（McQueen, Norris & Cutler, 1994）。TRACE 在模拟人类语音感知的一些特征方面表现良好，尤其是语境效应，而在其他方面则与人类感知有所不同，例如对错误的容忍度：TRACE 会将音素细节发生变化的词语（例如，从“smog”派生的“smob”）识别为相关词语，而对人类而言，这些词语似乎是非词语（Harley，2008）。其他研究人员批评了所谓的自上而下的反馈量过多，因为一个不包含自上而下的反馈的 TRACE 版本模拟的语音感知与原始版本一样好（Clifton & Cutler，1999）。

语音产生

说话的行为涉及到与听觉行为相似的处理步骤，但这些步骤按相反的顺序执行，从句子意义到音韵特征。说话也可以看作是将想法转化为线性形式（因为句子是词语的一维序列）。根据 Levelt（1989）的说法，说话者处理三个主要问题。第一个是概念化，即确定要说什么，并选择相关信息来构建一个非语言信息。下一个是将这个非语言信息转化为语言形式，包括选择单个词语、句法规划和将词语编码为声音。第三个问题是执行，这意味着在运动发音系统上实现语言表征。图 2 给出了 Levelt 模型的概述，其特定特征将在以下章节中讨论。有证据表明，语音产生是一个 增量式 过程，这意味着规划和发音同时进行，处理的早期步骤“领先于”我们在言语序列中准备的后期步骤。例如，如果要形成一个包含两个名词的短句来描述一幅图画，一个听觉干扰因素会延迟说话的开始，如果它在语义上与两个名词中的任何一个相关，或者如果它在音韵上与第一个名词相关，但与第二个名词不相关（Meyer，1996）。这支持了这样的观点，即在说话开始之前，句子的所有名词都在语义上被准备好了，但只有第一个名词已经被音韵编码了。似乎规划也以周期性返回的阶段进行，因为人们发现，在正常的对话中，每隔 5 到 8 个词语就会出现停顿。流畅的言语时期与更加不流畅的时期交替出现，两者都与不同的手势和眼神接触模式相关联。这被解释为构建说话的“认知周期”（Henderson, Goldman-Eisler & Skarbeck (1966)。关于语音产生的文献远少于关于理解的文献；大多数关于语音产生的研究都集中在收集言语错误（并询问说话者想要说的是什么）以了解我们如何组织语音产生。实验性研究，例如使用图片命名任务，是一个比较新的领域（Harley，2008）。因此，在讨论概念和句法规划、词语化和发音的步骤之前，有一段关于言语错误的段落。

增量处理 处理的顺序步骤同时发生，以一种方式，当已经经历过步骤 1 的材料正在经历步骤 2 时，新材料将经历步骤 1。

言语错误

各种语言单位（例如，音韵特征、音素、音节、语素、词、短语、句子）都可能成为日常生活中以及实验室任务中发生的言语错误的主题。这些错误涉及不同的机制，如混合、替换、交换、添加或删除语言单位（Harley，2008）。为了更形象地说明言语错误的分类，这里有一些（自己创建的）例子

表 1：言语错误示例。
错误	示例	预期
音韵特征替换	telete	delete
音素删除	probaby	probably
音素交换（此处：也为Spoonerism）	nigh hoon	high noon
音素添加（此处：也为 perseveration）	cream crake	cream cake
音节删除	unployment	unemployment
词缀替换	hungerty and pover	hunger and poverty
词语删除	The bar is next the library.	The bar is next to the library.
词语替换	The sky is very hot today.	The sky is very blue today.
词语混合	The sky is very blot today.	The sky is very blue today.
短语混合	I saw him tell it was not a good idea.	I saw him climb up the roof. I told him it was not a good idea.

言语错误涉及特定语言单位的发现已被解释为一个论据，即这些单位不仅是语言学家的描述性类别，而且还受实际言语处理的认知步骤的影响（Fromkin，1971）。研究表明，错误并非随机发生：如果人们遇到容易出错的材料（例如，如果要求他们快速读出包含绕口令的文本），形成词汇上正确的词的错误比不形成词汇上正确的词的错误发生的频率更高。形成禁忌词的错误比其他可能的错误发生的频率更低。然而，包含意外形成禁忌词可能性的材料会导致皮肤电反应升高，就好像说话者在内部监控这些可能的错误一样（Motley、Camden & Baars，1982）。

Garrett 的言语产生模型

Garrett（1975，1992）提出了一个基于言语错误分析的言语产生的一般模型。他的基本假设是处理是串行的，不同的处理阶段之间没有相互作用。短语规划分两个步骤进行：在功能层，确定内容和主要句法角色，如主语和宾语，以及在包含确定最终词序和所用词的音韵规范的位置层。内容词（名词、动词和形容词）在第一层选择，功能词（如限定词和介词）仅在第二层选择。因此，内容词词干的音韵规范发生在功能词或语法形式（如动词的复数形式或过去时形式）的音韵规范之前。根据该理论，词语交换发生在第一层，因此受语义关系的影响，但受完成句中词语之间距离的影响要小得多。相反，作为音韵编码产物的语音交换发生在词序已确定的后期阶段，这使得它们受距离的约束。同样根据该理论，语音通常在短距离内交换，而词语可以在整个短语内交换。Garret 的理论还预测，元素只有在它们属于同一处理级别时才会交换。这得到了一个可靠的发现的支持，即内容词和功能词几乎从不互相交换（Harley，2008）。其他言语错误更难用 Garret 的模型来解释：词语混合，如“quizzle”来自“quiz”和“puzzle”，似乎表明两个词语同时从词汇中提取，这与 Garret 的语言产生是串行的而不是并行过程的想法相矛盾。更成问题的是，词语混合甚至整个短语的混合似乎受到音韵相似性的促进。也就是说，闯入的内容和预期的内容在它们共享音素或音节的地方比偶然发生的频率更高。如果功能层面的规划和音韵处理确实是相互之间没有交互的独立阶段，那么这种情况就不应该发生（Harley，1984）。

概念规划

已经提到，说话涉及线性化思想。这是因为，即使我们想说的话涉及以复杂的方式相互关联的概念（例如像一个网络），我们也必须一个一个地处理它们。这是 概念准备的主要目标，这一步骤 - 根据 Levelt（1999） - 发生在将思想转化为词语之前，从而产生一个语言前信息。宏观规划是概念准备的一部分，可以被描述为主题的管理。说话者必须确保听众在引导他的注意力从一个项目到下一个项目时能够跟上。当人们在对话中遍历一组项目时，他们通常会选择与前一个项目直接相关的项目；如果这不可能，他们会回到一个中心项目，他们可以将其与下一个项目相关联，或者他们会从一个简单的项目开始，然后转向更难的项目。我们用句子表达的思想通常包含指称之间的关系。为了以语言中要求的线性形式获得这些关系，我们必须将指称分配给句法角色，如主语和宾语，这些角色在大多数语言中与句子中的某些位置相关联。这被称为微观规划。通常可以用各种句法结构表达相同的关系，类似于不同的视角，并且我们必须在开始说话之前选择一个。例如，如果一只猫和一只狗并排坐着，我们可以说“猫坐在狗的右边”以及“狗坐在猫的左边”（Levelt，1999）。有人提出，句子的整体结构（如主动语态与被动语态或副词位于句首或句尾）是在一定程度上独立于内容确定的，也许是借助于一个“句法模块”。证据来自句法启动，例如当参与者在阅读一个无关的句子后描述一幅图片时会发生这种情况。他们选择与先前阅读的句子相似的句法结构的频率比偶然发生的频率更高。其他方面，如词语的选择及其语法形式，不会与这种启动发生相互作用（Bock，1986）。

概念准备 将概念之间的关系转移到一系列句法关系中。

指称一个词所指代的人、物体或概念。

词语化

在概念规划期间选择的概念必须转化为具有明确语法和音韵特征的词语，以便我们构建最终以音韵方式编码以进行发音的句子。这种“词语选择”被称为 词语化 ，Levelt (1999) 假设这是一个两步过程：首先，绘制一个语义和句法上指定的词语表示，即所谓的词素，它不包含音韵信息；然后将词素与其音韵形式，即词形联系起来。说不出话的现象可以作为词素选择成功但音韵处理被打断的日常生活例子：即使说话者知道一个词的含义，甚至知道其语法或音韵细节，但仍然无法找到该词的音韵形式。词语化中语义和音韵处理分离的模型得到了图片命名任务中干扰因素的证据支持：必须呈现与目标项音韵相关的听觉刺激以减缓命名的时间窗口，与语义相关的刺激干扰命名的時間窗口不同（请注意，两者在其他时间窗口内都可能加快处理速度）。根据这些发现，处理图片并激活概念大约需要 150 毫秒，选择词素大约需要 125 毫秒，音韵处理大约需要 250 毫秒（Levelt 等人，1991）。其他研究人员认为这些阶段之间存在重叠，允许级联式处理：即使在词素选择完成之前，语义处理的信息也可以用于音韵处理。Peterson 和 Savoy (1998) 在图片命名任务中发现了中介启动，这意味着在某个时间点呈现目标词的语义相关词的音韵相关词（例如，通过“沙发”与目标词“沙发”相关的“苏打水”）促进了处理。支持级联式处理的另一个发现是，插入词与目标词在语义和音韵上都有关的词语替换错误（例如，目录到日历）出现的概率高于随机水平（Harley，2008）。争议甚至更进一步，质疑词素的存在。作为替代模型，Caramazza (1997) 提出了词语化过程中信息相互交换的词汇语义网络、句法网络和音韵网络。

词语化 言语产生中的词语选择。

词素一个词的含义和句法属性的表示，不包含其音韵特征。

词形一个词的音韵形式的表示。

语法规划

对于每个词，语法特征可以通过词素选择（或根据 Caramazza 模型激活句法网络中的相关元素）变得可访问，从而限制将其整合到句子的机会。每个词都可以被概念化为句法网络中的一个节点，为了完成句子的结构，必须找到连接所有这些节点的路径。习语是一种特殊情况，因为它们与非常强的约束条件相关联。因此，假设它们作为独立的条目（除了构成它们的单个词的条目之外）存储在我们的心理词典中（Levelt，1999）。在许多语言中，为了将一个词整合到句子中，还需要定义该词的形态形式，并考虑其句法关系以及该词包含的附加信息（如时态和数）。形态变换可以通过在词根上添加词缀（如“speculated”或“plants”）或通过改变词根（如“swim-swam”或“mouse-mice”）来实现。英语中的形态变换的数量和复杂程度与德语、俄语或阿拉伯语等语言相比适中，而在汉语等其他语言中，则根本不存在形态变换。

形态词语能够采用不同的语法形式，并具有不同的音韵形式。

发音

当词语以其适当的形态形式的音韵信息可用且词序已确定时，发音就可以开始。请记住，这些过程是增量的，因此句子不需要在开始发音之前完全准备完毕。问题是要以正确的顺序和正确的韵律产生所需的语音。关于如何实现这一点，存在不同的模型。扫描复制模型（Shattuck-Hufnagel，1979）是一种经典方法，它提出要准备一个音节结构和重音模式的框架。音素由“复制器”模块插入到这个框架中，并且进度会立即被检查。语音错误，例如音素交换、音素删除或坚持，可以用复制和检查过程的某些点的失败来解释。根据竞争排队模型（Hartley & Houghton，1996），该模型采用了框架和复制器，要插入的音素形成一个队列，插入顺序由它们与标记词语开头和结尾的特定单元之间的激活和抑制连接来控制。因此，与开始单元连接最强的音素将被插入第一个位置。

音节在发音中的作用

WEAVER++（Levelt，2001）是一个两步模型，假设通过词形识别，同时绘制一个代表整个词的音素序列。这得到了命名任务中的发现支持，在命名任务中，以听觉方式呈现的启动目标词部分的干扰因素会加速命名，无论启动的部分在目标词中的位置如何（Meyer & Schriefers，1991）。作为下一步，形成音节，而音节不是词典表示的一部分。由于同化作用，音节需要作为发音过程的输入。音节的形成被认为是由一个频繁音节的储存库，即 音节表 ，促进的。即使在像英语这样的具有大量不同音节的语言中（超过 12,000 个），在给定的话语中，只有很少的音节占大多数音节。这些音节（在只有几百个不同音节的语言中，如汉语或日语，可能是所有音节）形成了高度自动化的运动序列，这些序列（根据 Rizzolatti & Gentilucci，1988）可以存储在辅助运动区。支持音节表存在的发现是，在联想学习任务中，包含高频音节的伪词（由正常的荷兰音节构成）的处理速度比包含低频音节的伪词更快（Cholin，Levelt & Schiller，2006）。音节的形成也可能取决于韵律。在像英语这样的重音分配语言中，音韵词是通过将非重音音节与相邻的重音音节关联起来形成的。这些音韵词似乎在说话开始之前就已准备好，因为对于包含更多音韵词的句子来说，说话开始的时间更长。在发音中，音节只在音韵词内结合，而不是跨音韵词结合。例如，在句子“给我一杯啤酒，如果啤酒是冷的”中，“啤酒”中的“r”只在句子的第二部分（“bee-ris cold”）中与后面的“i”结合，因为逗号标志着音韵词之间的边界（Harley，2008）。这个例子还表明，音节不是由词语决定的，因为当词语单独存在时，音素可能会从它们所属的音节中改变，而改为属于另一个词语的音节。

音节表 用于语音产生中的音节准备的“字典”，包含频繁的音节。

声学语音参数

在发音过程中，我们不仅操纵我们发出的声音的音素属性，还操纵音量、音调和速度等参数。这些参数取决于话语的整体韵律，以及给定音节在话语中的位置。虽然韵律可以被直接调节以表达独立于所使用词语的含义（想想不同的重音可以让同一个句子听起来像陈述句或疑问句），但一些声学参数可以暗示说话者的情绪状态：音调是指短语内音调的变化，受短语与说话者的相关性以及说话者的情感参与的影响。音区是指基本音调，受说话者当前自尊心的影响（使用较低的胸腔音区表明自尊心高于使用头部音区）（Levelt，1999）。

语音产生的监控

根据语音产生的标准模型（Levelt，1999），监控贯穿语音产生的所有阶段。Levelt 假设，为了监控句法排列，我们使用与分析听到的句子的句法相同的“解析”机制。尽管语音产生和语音理解涉及不同的脑区（听觉时颞叶听觉区域被激活，说话时运动区域被激活；参见关于语言生物学基础的章节），但对自己语音的监控似乎也涉及到参与倾听他人的颞叶区域。因此，人们提出了用于语音监控的“感知回路”（Levelt，1999），尽管目前尚不清楚这个回路是处理我们产生的听觉信号，还是处理一些更早的语音表示，一种“内心”语音。

总结

言语理解首先要从识别音频背景中的语音信号并将其转化为抽象表征开始，这也被称为解码。语音被感知为音素，它是意义的最小单位。音素感知不仅受声学特征的影响，也受词语和句子语境的的影响。为了分析其意义，需要对连续的语音信号进行分割。这借助于语音的节奏模式来完成。在接下来的词语识别的处理步骤中，只包含词语的语音信息的预词汇编码被补充了后词汇编码，即词语的语义和句法属性。有人提出，存在一个包含词语候选者的“心理词典”，即词典。通过整合单个词语的后词汇编码，可以破译句子的含义。言语理解的终点——概念信息——是言语产生的起点。由于言语是一个一维序列，所以思想必须以线性形式组织，并必须表达为句法关系。必须为选择的概念选择词语，这一过程被称为词汇化，它是词语识别的逆过程，因为这里首先选择词语的语义和句法表征（词素），然后必须将其与语音表征（词形）联系起来。单个词语的句法属性可以看作是将其整合到句子中的约束条件，因此需要构建一个满足所有约束条件的句法结构。在对句子进行语音编码以进行发音之前，还需要指定词语的形态形式。为了计划发音，音节从词汇词语中构建出来，并与句子重音模式产生的语音词语相协调。一般来说，言语产生是一个增量过程，这意味着发音和对后续短语的不同准备阶段同时发生。

进一步阅读

Cutler, A. & Clifton, C. (1999). 理解口语：听者的蓝图。在：C. M. Brown & P. Hagoort (1999). 语言的神经认知。牛津：牛津大学出版社。

Levelt, W. J. M. (1999). 产生口语：说话者的蓝图。在：C. M. Brown & P. Hagoort (1999). 语言的神经认知。牛津：牛津大学出版社。

Fromkin, V. A. (1971) 异常话语的非异常性。语言，51, 696-719

参考文献

Bock, J. K. (1986). 语法持续性在语言产生中的作用。认知心理学，18, 355-387。

Caramazza, A. (1997). 词汇访问中有多少个处理级别？认知神经心理学，14, 177-208。

Cholin, J., Levelt, W. J. M. & Schiller, N. O. (2006). 音节频率对言语产生的影响。认知，99, 205-235。

Clark, H. H. & Clark, E. V. (1977). 心理学与语言：心理语言学导论。纽约：哈考特·布雷斯·乔瓦诺维奇。

Cutler, A. & Clifton, C. (1999). 理解口语：听者的蓝图。在：C. M. Brown & P. Hagoort (1999). 语言的神经认知。牛津：牛津大学出版社。

Cutler, A. & Norris, D. G. (1988). 强音节在词汇访问分割中的作用。实验心理学杂志：人类感知与表现，14, 113-121。

Foss, D. J. & Blank, M. A. (1980). 识别语音编码。认知心理学，12, 1-31。

Fromkin, V. A. (1971) 异常话语的非异常性。语言，51, 696-719。

Ganong, W. F. (1980). 音位分类在听觉词语感知中的作用。实验心理学杂志：人类感知与表现，6, 110-125。

Garrett, M. F. (1975). 句子产生的分析。在：G. Bower. 学习与动机的认知心理学（第 9 卷，第 133-177 页）。纽约：学术出版社。

Garrett, M. F. (1992). 词汇选择的障碍。认知，42, 143-180。

Harley, T. A. (1984). 对自上而下的独立语音产生模型的批判：来自非计划内部语音产生的证据。认知科学，8, 191-219。

Harley, T. A. (2008). 语言心理学：从数据到理论。第三版。霍夫：心理学出版社。

Hartley, T. & Houghton, G. (1996). 非词的短时记忆的语言约束模型。记忆与语言杂志，35, 1-31。

Henderson, A., Goldman-Eisler, F. & Skarbeck, A. (1966). 语音中的顺序时间模式。语言与言语，8, 236-242。

Libermann, A. M., Harris, K. S., Hoffmann, H. S. & Griffith, B. C. (1957). 在音位边界内和跨音位边界内的语音声音辨别。实验心理学杂志，53, 358-368。

Levelt, W. J. M. (1989). 言语：从意图到发音。马萨诸塞州剑桥：麻省理工学院出版社。

Levelt, W. J. M. (1999). 产生口语：说话者的蓝图。在：C. M. Brown & P. Hagoort (1999). 语言的神经认知。牛津：牛津大学出版社。

Levelt, W. J. M. (2001). 口语词产生：词汇访问理论。美国国家科学院院刊，98, 13464-13471。

Levelt, W. J. M., Schriefers, H., Vorberg, D., Meyer, A. S., Pechmann, T. & Havinga, J. (1991). 语音产生中词汇访问的时间进程：图片命名研究。心理回顾，98, 122-142。

Marslen-Wilson, W. D. (1990). 激活、竞争和频率在词汇访问中的作用。在：G. T. M. Altmann (1990). 语音处理的认知模型。马萨诸塞州剑桥：麻省理工学院出版社。

Marslen-Wilson, W. D. & Warren, P. (1994). 词汇访问中感知表征和过程的级别：词语、音素和特征。心理回顾，101, 653-675。

Marslen-Wilson, W. D. & Welsh, A. (1978). 处理交互作用和词汇访问在连续语音中词语识别的作用。认知心理学，10, 29-63。

Martin, J. G. & Brunell, H. T. (1982). 对前瞻性共发音效应的感知。美国声学学会杂志，69, 559-567。

McClelland, J. L. & Elman, J. L. (1986). 语音感知的 TRACE 模型。认知心理学，18, 1-86。

McQueen, J. M., Norris, D. G. & Cutler, A. (1994). 口语词识别中的竞争：在其他词语中发现词语。实验心理学杂志：学习、记忆和认知，20, 621-638。

Mehler, J., Dommergues, J.-Y., Frauenfelder, U. H. & Segui, J. (1981). 音节在语音分割中的作用。言语学习与言语行为杂志，20, 298-305。

Meyer, A. S. (1996). 词汇访问在短语和句子产生中的作用：来自图片-词语干扰实验的结果。记忆与语言杂志，35, 477-496。

Meyer, A. S. & Schriefers, H. (1991). 图片-词语干扰实验中的语音促进：刺激开始异步和干扰刺激类型的影响。实验心理学杂志：学习、记忆和认知，17, 1146-1160。

Motley, M. T., Camden, C. T. & Baars, B. J. (1982). 语言产生中异常的隐性公式化和编辑：来自实验诱发的口误的证据。言语学习与言语行为杂志，21, 578-594。

Norris, D. G., McQueen, J. M., Cutler, A. & Butterfield, S. (1997). 连续语音分割中的可能词语约束。认知心理学，34, 191-243。

Peterson, R. R. & Savoy, P. (1998). 语言产生过程中的词汇选择和语音编码：级联处理的证据。实验心理学杂志：学习、记忆和认知，24, 539-557。

Pisoni, D. B. & Tash, J. (1974). 对音位类别内和跨音位类别比较的反应时间。感知与心理物理学，15, 285-290。

Rizzolatti, G. & Gentilucci, M. (1988). 运动和视觉-运动前运动皮层的功能。在：P. Rakic & W. Singer. 新皮层的生物学。奇切斯特：威利。

Samuel, A. G. (1981). 音位恢复：来自新方法的见解。实验心理学杂志：一般，110, 474-494。

Savin, H. B. & Bever, T. G. (1970). 音位的非感知现实。言语学习与言语行为杂志，9, 295-302。

Shattuck-Hufnagel, S. (1979). 语误作为语言产生中串行排序机制的证据。在：W. E. Cooper & E. C. T. Walker. 句子处理：献给梅里尔·加勒特的心理语言学研究（第 295-342 页）。新泽西州希尔斯代尔：劳伦斯·厄尔鲍姆联合公司。

Warren, R. M. & Warren, R. P. (1970). 听觉错觉和混淆。美国科学家，223, 30-36。