跳转到内容

感觉系统/视觉信号处理

来自维基教科书,开放的世界,开放的书籍

信号处理

[编辑 | 编辑源代码]

如前所述,视网膜是眼睛的主要组成部分,因为它包含所有对光敏感的细胞。如果没有它,眼睛将类似于没有CCD(电荷耦合器件)传感器的数码相机。这部分详细说明了视网膜如何感知光线,光信号如何传输到大脑,以及大脑如何处理信号以形成足够的决策信息。

初始信号的产生 - 光感受器功能

[编辑 | 编辑源代码]

视觉总是从光线照射到视网膜中发现的光敏细胞开始。视网膜杆状体和锥状体中的光吸收视觉色素、各种酶和递质将启动从可见电磁刺激到电脉冲的转换,这一过程被称为光电转导。以杆状体为例,传入的可见电磁辐射照射到视紫红质分子,视紫红质分子是位于杆状体外盘结构中的跨膜分子。每个视紫红质分子都由一组称为视蛋白的螺旋构成,它包围并包围着11-顺式视黄醛,它是由于来自传入光子的能量而发生变化的部分。在生物分子中,由于这种能量而引起构象变化的基团或分子部分有时被称为生色团。11-顺式视黄醛响应传入的能量而变直,变成全反式视黄醛,这迫使视蛋白螺旋进一步分开,导致特定反应位点被暴露。这种“活化”的视紫红质分子有时被称为中视紫红质 II。从这一点开始,即使可见光刺激停止,反应也会继续。然后,中视紫红质 II 可以与大约 100 个称为转导蛋白的 Gs 蛋白分子反应,然后在 GDP 转换为 GTP 后产生 αs 和 βγ。活化的 αs-GTP 然后结合到 cGMP 磷酸二酯酶 (PDE),抑制正常的离子交换功能,导致细胞质中阳离子浓度降低,因此细胞极化发生变化。

自然光电转导反应具有惊人的放大能力。一个被单个光量子激活的单个视黄醛视紫红质分子会导致每秒最多水解 106 个 cGMP 分子。

光转导
[编辑 | 编辑源代码]
光活化分子步骤的表示(改编自 Leskov 等人,2000 年)。描绘的是杆状体中的外膜盘。步骤 1:入射光子 (hν) 被吸收并通过盘膜中构象变化激活视紫红质为 R*。步骤 2:接下来,R* 与转导蛋白分子重复接触,通过释放结合的 GDP 以交换细胞质 GTP 来催化其激活为 G*(步骤 3)。α 和 γ 亚基 G* 结合磷酸二酯酶 (PDE) 的抑制性 γ 亚基,激活其 α 和 β 亚基。步骤 4:活化的 PDE 水解 cGMP。步骤 5:鸟苷酸环化酶 (GC) 合成 cGMP,它是光转导级联反应中的第二信使。细胞质 cGMP 水平降低会导致环核苷酸门控通道关闭,阻止 Na+ 和 Ca2+ 的进一步流入。
  1. 光子与 视黄醛光感受器 中相互作用。视黄醛经历 异构化,从 11-顺式 变成全-反式 构型。
  2. 视黄醛 不再适合视蛋白结合位点。
  3. 因此,视蛋白经历构象变化成为中视紫红质 II。
  4. 中视紫红质 II 不稳定并分裂,产生视蛋白和全-反式 视黄醛。
  5. 视蛋白激活调节蛋白 转导蛋白。这会导致转导蛋白与其结合的 GDP 解离,并结合 GTP,然后转导蛋白的 α 亚基从 β 和 γ 亚基分离,GTP 仍然与 α 亚基结合。
  6. α 亚基-GTP 复合物激活 磷酸二酯酶
  7. 磷酸二酯酶将 cGMP 降解为 5'-GMP。这降低了 cGMP 的浓度,因此钠通道关闭。
  8. 钠通道关闭会导致细胞因持续的钾电流而超极化。
  9. 细胞超极化会导致电压门控钙通道关闭。
  10. 当光感受器细胞中的钙水平下降时,细胞释放的神经递质谷氨酸的量也下降。这是因为钙对于含有谷氨酸的囊泡与细胞膜融合并释放其内容物是必需的。
  11. 光感受器释放的谷氨酸量减少会导致中心开启双极细胞(杆状体和锥状体开启双极细胞)去极化,而锥状体关闭双极细胞超极化。

在没有可见电磁刺激的情况下,包含离子、蛋白质和其他分子的鸡尾酒的杆状体细胞的膜电位差约为 -40mV。与其他神经细胞相比,这相当高(-65mV)。在这种状态下,神经递质谷氨酸会不断地从轴突末端释放出来,并被邻近的双极细胞吸收。随着传入的可见电磁辐射和前面提到的级联反应,电位差降至 -70mV。这种细胞的超极化会导致释放的谷氨酸量减少,从而影响双极细胞的活动,进而影响视觉通路中的后续步骤。

锥状体细胞和光敏感神经节细胞中也存在类似的过程,但使用不同的视蛋白。光视蛋白 I 至 III(分别为黄绿色、绿色和蓝紫色)存在于三种不同的锥状体细胞中,而黑视蛋白(蓝色)可以在光敏感神经节细胞中找到。

视网膜信号处理

[编辑 | 编辑源代码]

不同的双极细胞对释放的谷氨酸的变化反应不同。所谓的开启和关闭双极细胞用于形成从锥状体到双极细胞的直接信号流。开启双极细胞将通过可见电磁刺激去极化,相应的开启神经节细胞将被激活。另一方面,关闭双极细胞通过可见电磁刺激超极化,关闭神经节细胞被抑制。这是直接信号流的基本途径。横向信号流将从杆状体开始,然后传递到双极细胞、中间神经元和关闭双极细胞,这些细胞被杆状体-中间神经元抑制,而开启双极细胞将通过电突触受到刺激,在所有上述步骤之后,信号将到达开启或关闭神经节细胞,并建立了横向信号流的完整途径。

当开启神经节细胞中的动作电位 (AP) 被可见电磁刺激触发时。当感受器电位增加时,AP 频率将增加。换句话说,AP 取决于感受器电位的幅度。神经节细胞区域,其中刺激和抑制效应影响 AP 频率,被称为感受野 (RF)。围绕神经节细胞,RF 通常由两个区域组成:中心区域和环状外围区域。在可见电磁适应过程中,它们是可区分的。可见电磁刺激在中心区域会导致 AP 频率增加,而刺激外围区域会导致 AP 频率降低。当光源关闭时,就会发生激发。因此,开启场(中心场开启)的名称指的是这种区域。当然,关闭神经节细胞的 RF 以相反的方式起作用,因此被称为“关闭场”(中心场关闭)。RF 由水平细胞组织。外围区域的脉冲将被脉冲并传递到中心区域,并在那里形成所谓的刺激对比度。此功能将使黑暗看起来更暗,而光线看起来更亮。如果整个 RF 暴露在光线下。中心区域的脉冲将占主导地位。

信号传输到皮层

[编辑 | 编辑源代码]

如前所述,视网膜神经节细胞的轴突在视神经盘处汇聚,形成视神经。这些纤维在神经束中按特定顺序排列。来自视网膜黄斑区的纤维位于中央部分,来自视网膜颞侧半部的纤维占据外周部分。当这些纤维在眼腔外时,会发生部分交叉。来自每侧视网膜鼻侧半部的纤维交叉到对侧半部并延伸至大脑。来自颞侧半部的纤维保持不交叉。这种部分交叉被称为视交叉,视交叉后的视神经称为视束,主要用于区别于单侧视网膜神经。部分交叉的功能是将双眼产生的右侧视野的信息仅传递到大脑左侧,反之亦然。因此,来自身体右侧和右侧视野的信息在到达前脑后部(间脑)时,全部传递到大脑左侧。

通往中央皮层的通路

视束纤维与神经细胞之间的信息传递发生在位于大脑丘脑的膝状体外侧,这是视觉信号处理的中心部分。从这里,信息被传递到大脑对应侧的枕叶皮质的神经细胞。从视网膜到大脑的连接可以分为“视网膜小细胞通路”和“视网膜大细胞通路”。视网膜小细胞通路传递颜色和精细细节的信息,而视网膜大细胞通路检测快速移动的刺激。

从视网膜到大脑的连接可以分为“视网膜小细胞通路”和“视网膜大细胞通路”。视网膜小细胞通路起源于视网膜的矮细胞,传递颜色和精细细节信息;视网膜大细胞通路起始于伞形细胞,检测快速移动的刺激。

来自标准数码相机的信号与视网膜小细胞通路的信号大致对应。为了模拟视网膜小细胞通路的反应,研究人员一直在开发神经形态感觉系统,试图模仿神经系统中基于脉冲的计算。因此,他们在神经形态电子系统中使用名为“地址事件表示”的方案进行信号传输 (Liu and Delbruck 2010 [1]).

在解剖学上,视网膜大细胞和视网膜小细胞神经节细胞分别投射到外侧膝状体核 (LGN) 的 2 个腹侧大细胞层和 4 个背侧小细胞层。6 个 LGN 层中的每一个都接收来自同侧或对侧眼睛的输入,即,左眼的视网膜神经节细胞交叉投射到右 LGN 的 1、4 和 6 层,而右眼的视网膜神经节细胞投射 (不交叉) 到其 2、3 和 5 层。从这里,来自左右眼的信息就被分开了。

尽管人类的视觉是由视网膜的两个半部分整合的,并且信号由对侧大脑半球处理,但视野被认为是一个平滑且完整的单元。因此,两个视觉皮层区域被认为是紧密连接的。这种连接被称为胼胝体,由神经元、轴突和树突组成。由于树突与半球的相关点建立突触连接,因此对一个半球上的每个点进行电刺激,都会引起另一个半球上与其连接点的电刺激。唯一例外是初级视觉皮层。

视束在侧膝状体核的相应层中建立突触连接。然后,这些三级神经细胞的轴突向上传递到每个大脑半球枕叶的距状裂。由于来自视网膜神经细胞的白色纤维和轴突束穿过该区域,因此它被称为纹状皮层,这恰好是我们的初级视觉皮层,有时被称为 V1。在这一点上,来自不同眼睛的脉冲汇聚到共同的皮质神经元,然后使来自两只眼睛的完整输入在一个区域内得以用于感知和理解。模式识别是脑部这一特定区域非常重要的功能,如果出现病变,会导致视觉识别障碍或盲视。

基于视束纤维按顺序传递信息到侧膝状体核,然后传递到纹状区的方式,如果发现视网膜上的一个点刺激,那么在侧膝状体核和纹状皮层中产生的电活动响应将会出现在特定的视网膜点的小区域。这是一种明显的点对点的信号处理方式。如果刺激整个视网膜,那么响应将会出现在侧膝状体核和纹状皮层灰质区域。可以将该脑区映射到视网膜视野,或者更常见的是,映射到视觉视野。

该通路中的任何进一步步骤都超出了本书的范围。请放心,还有许多进一步的层次和中心存在,它们专注于特定的任务,例如颜色、方向、空间频率、情绪等等。

视觉系统中的信息处理

[edit | edit source]

在对视觉系统中信号处理的一些更重要概念有了更深入的理解后,对处理后的感觉信息的理解或感知是难题中最后一个重要的部分。视觉感知是将眼睛接收到的信息转化为对外部事物的理解的过程。它使我们意识到周围的世界,并让我们更好地理解它。基于视觉感知,我们学习模式,然后在以后的生活中应用这些模式,我们根据这些模式和获得的信息做出决定。换句话说,我们的生存依赖于感知。由于处理过程过于复杂,需要不同的专门机制来感知所看到的事物,因此视觉感知领域被划分为不同的子领域。这些子领域包括:颜色感知、运动感知、深度感知和面部识别等等。

灵长类视觉皮层中的深层层次结构

[edit | edit source]
视觉系统中的深层层次结构

尽管电子系统的计算能力不断提高,但动物和人类在许多任务上仍然远远超过计算机——其中之一就是感知和理解信息。无论是手机中的计算机,还是占据整个房间的超级计算机,经典计算机本质上都是数字运算器。它可以在极短的时间内进行大量的计算。它所缺乏的是对它正在处理的信息进行抽象。如果你将摄像头连接到你的计算机,它“感知”到的图像只是一个像素网格,一个二维数字数组。而人类会立即识别出场景的几何形状、图像中的物体,甚至可能识别出正在发生的事情的背景。我们的这种能力是由专门的生物机制——大脑的视觉系统提供的。它以一种分层的方式处理我们看到的一切,从图像的简单特征开始,到更复杂的特征,一直到将物体分类到不同的类别。因此,视觉系统被认为具有深层层次结构。灵长类视觉系统的深层层次结构启发了计算机科学家创建人工神经网络模型,这些模型也具有多个层,其中每一层都对输入数据创建更高层次的概括。

大约一半的人类新皮层专门用于视觉。视觉信息的处理至少在 10 个功能层级上进行。早期视觉区域中的神经元在视觉空间的小区域内提取简单的图像特征。当信息传递到更高的视觉区域时,神经元对越来越复杂的特征作出反应。随着信息处理层级的提高,表示变得更加不变——对特征大小、旋转或位置的具体变化不那么敏感。此外,更高视觉区域中神经元的感受野大小增加,表明它们被调谐到更全局的图像特征。这种分层结构可以实现高效的计算——不同的更高视觉区域可以使用在较低区域中计算出的相同信息。在早期视觉区域中创建的通用场景描述被大脑的其他部分用于完成各种不同的任务,例如物体识别和分类、抓取、操作、运动规划等等。

皮层下视觉

[edit | edit source]

视觉信息的**神经处理**早在任何皮质结构之前就已经开始了。视网膜上的感光细胞检测光线并向视网膜神经节细胞发送信号。感光细胞的**感受野**大小为一度的百分之一(当你的手臂伸直在你面前时,一度大小的感受野大约是你拇指的大小)。神经节细胞的输入数量,因此其感受野大小取决于位置——在视网膜中心,它接收来自少至五个感光细胞的信号,而在周围,单个细胞可以有数千个输入。这意味着**视网膜中心**的空间分辨率最高,也称为**中央凹**。由于这一特性,灵长类动物拥有**注视控制机制**,将视力指向感兴趣的特征,使其投射到中央凹上。

神经节细胞被选择性地调节以检测图像的各种特征,例如亮度对比度、颜色对比度以及运动的方向和速度。所有这些特征都是进一步处理管道中使用的**主要信息**。如果存在神经节细胞无法检测到的视觉刺激,那么它们也无法被任何皮质视觉区域使用。

神经节细胞投射到丘脑中的一个区域,称为**外侧膝状核**(LGN),它反过来将信号传递给皮质。目前尚无已知的重要计算发生在LGN中——视网膜神经节细胞和LGN细胞之间几乎是一对一的对应关系。但是,只有 5% 的 LGN 输入来自视网膜——所有其他输入都是**皮质反馈投射**。虽然视觉系统通常被认为是一个**前馈系统**,但**循环反馈连接**以及**横向连接**是整个视觉皮层中常见的特征。反馈的作用尚未完全了解,但据推测它归因于注意力、预期、想象力和填补缺失信息等过程。

皮质视觉

[edit | edit source]
视觉系统的主要区域

视觉皮层可以分为三个大区域——**枕叶部分**,它接收来自LGN的输入,然后将输出发送到**背侧通路**和**腹侧通路**。枕叶部分包括V1-V4和MT区域,这些区域处理视觉信息的**不同方面**,并产生**通用场景表示**。**背侧通路**参与空间分析和动作计划。**腹侧通路**参与目标识别和分类。

V1 是处理视觉信息的**第一个皮质区域**。它对边缘、光栅、线端、运动、颜色和**视差**(一个点投射到左右视网膜上的角度差)敏感。**层次化自下而上处理**最直接的例子是将来自多个具有**中心-周围感受野**的神经节细胞的输入线性组合以创建条形表示。这是由V1的**简单细胞**完成的,最初由著名的神经科学家**Hubel和Wiesel**描述。这种信息整合意味着简单细胞对条形的精确位置敏感,并且具有相对较小的感受野。V1的**复杂细胞**接收来自简单细胞的输入,并且也对线性定向模式做出反应,但它们对条形的精确位置不敏感,并且具有更大的感受野。此步骤中存在的计算可能是一种**MAX 类操作**,它产生的响应幅度类似于与单个刺激相关的较大响应。一些简单细胞和复杂细胞还可以检测条形的末端,并且一部分 V1 细胞也对其各自感受野内的局部运动敏感。

V2 区域具有更复杂的轮廓表示,包括**纹理定义的轮廓**、**幻觉轮廓**和具有**边界所有权**的轮廓。V2 还建立在 V1 中的**绝对视差检测**的基础上,并具有对**相对视差**敏感的细胞,即空间中两点之间绝对视差的差值。V4 区域接收来自 V2 和 V3 区域的输入,但关于 V3 中发生的计算知之甚少。V4 区域具有对具有不同曲率的轮廓以及具有特定角度的顶点敏感的神经元。另一个重要特征是对**亮度不变色调**的编码。这与 V1 形成对比,V1 中的神经元对两个主轴(红绿和黄蓝)上的颜色对立做出反应,而不是实际颜色。V4 进一步输出到腹侧通路,到**下颞叶皮层**(IT),通过病灶研究表明,它对于目标辨别至关重要。

下颞叶皮层:目标辨别

[edit | edit source]
TE 区域的刺激减少

下颞叶皮层 (IT) 分为两个区域:TEO 和 TE。TEO 区域整合关于多个轮廓元素的形状和相对位置的信息,并且主要包含对特征的简单组合做出反应的细胞。TEO 神经元的感受野大小约为 3-5 度。TE 区域包含具有明显更大感受野(10-20 度)的细胞,这些细胞对人脸、手和复杂的特征配置做出反应。TE 中的细胞对视觉特征做出反应,这些特征是对感兴趣目标的更简单概括,但比简单的条形或点更复杂。这通过**Tanaka 等人的刺激减少方法**得到证明,其中首先测量对目标的反应,然后用更简单的表示替换目标,直到缩小 TE 神经元所响应的关键特征。

似乎 IT 中的神经元将来自腹侧通路较低级别的中等复杂度的各种特征拉到一起,以构建目标部分的模型。对特定目标具有选择性的 TE 中的神经元必须满足两个看似矛盾的要求——**选择性**和**不变性**。它们必须通过对视网膜图像中特征的敏感性来区分不同的目标。但是,同一个目标可以从不同的角度和距离在不同的光照条件下被观察到,从而产生同一目标的高度不同的视网膜图像。为了将所有这些图像视为等效的,必须推导出对某些变换(如位置、光照、视网膜上的大小等变化)具有鲁棒性的不变特征。TE 区域的神经元对位置和大小以及部分遮挡、深度位置和光照方向表现出不变性。深度旋转已被证明具有最弱的不变性,但如果目标是人脸除外。

目标类别在 TE 区域尚未明确存在——神经元通常可能对同一类别的几个(但不是所有)示例(例如树的图像)做出反应,并且它也可能对不同类别的示例(例如树和非树)做出反应。目标识别和分类很可能涉及从 TE 神经元的大量群体中进行采样,以及接收来自其他大脑区域的输入,例如负责理解场景上下文的大脑区域。最近的**读出实验**已经证明,统计分类器(例如支持向量机)可以接受训练,根据少数 TE 神经元的反应来分类目标。因此,TE 神经元群体原则上可以通过其组合活动可靠地发出目标类别的信号。有趣的是,也有一些关于**内侧颞叶**中高度选择性神经元的报告,它们对非常特定的线索做出反应,例如,对不同图像中的比萨斜塔或特定人的面部做出反应。

视觉系统的学习

[edit | edit source]

学习可以改变神经元的视觉特征选择性,学习的影响在更高的层次结构级别上变得更强。目前尚无关于视网膜学习的已知证据,并且 V1 中的**方向图**似乎也主要由基因决定。但是,练习**方向识别**会改善 V1 神经元的方向编码,方法是增加**调谐曲线的斜率**。在 V4 中已经观察到类似但更大的影响。在 TE 区域,相对较少的视觉训练对视觉感知具有明显的神经生理影响,无论是单细胞水平还是 fMRI 水平。例如,将两个物体相互融合会增加它们感知到的相似性。总体而言,似乎即使是成年视觉皮层也具有相当大的可塑性,并且可塑性水平可以显著提高,例如,通过服用特定药物或生活在丰富环境中。

深度神经网络

[edit | edit source]

与灵长类动物视觉系统的深层层次结构类似,深度学习架构试图通过使用多级非线性变换来对输入数据的更高层次抽象进行建模。Hubel 和 Wiesel 提出的模型,其中信息从视网膜和外侧膝状体到 V1 中的简单细胞和复杂细胞级联整合和传播,启发了第一个深度学习架构——新认知机(neocognitron)的创建,这是一种多层人工神经网络模型。它被用于不同的模式识别任务,包括手写字符的识别。然而,训练该网络需要很长时间(以天为单位),而且自其在 1980 年代问世以来,深度学习直到 2000 年代中期才受到广泛关注,这得益于数字数据的丰富和更快训练算法的发明。深度神经网络已被证明在不久前看似只有人类才能完成的任务中非常有效,例如识别照片中特定人物的面部、理解人类语音(在某种程度上)以及将文本翻译成外语。此外,它们已被证明在工业和科学领域非常有用,例如寻找潜在的药物候选者、绘制大脑中的真实神经网络以及预测蛋白质的功能。必须指出的是,深度学习只是从大脑中获得非常松散的灵感,它更像是计算机科学/机器学习领域的成就,而不是神经科学的成就。基本相似之处在于,深度神经网络由以非线性方式整合信息输入的单元(神经元)组成,并相互发送信号(突触),以及存在数据越来越抽象的不同层次表示。深度学习中使用的“神经元”的学习算法和数学描述与大脑中实际发生的流程非常不同。因此,深度学习的研究,虽然为更先进的人工智能提供了巨大的推动力,但只能对大脑提供有限的见解。

带主要组件的神经元示例。
神经网络基本单元示例。在本例中,激活函数是修正线性单元(ReLU),但也存在其他可能性,例如 sigmoid 函数或双曲正切函数。偏差改变了单元的激活阈值,因此它类似于神经元中动作电位的阈值。
深度神经网络示例。每个正方形代表上面图像中描述的一个单元。

参考文献

[edit | edit source]
关于视觉系统中深层层次结构的论文
  • Kruger, N.; Janssen, P.; Kalkan, S.; Lappe, M.; Leonardis, A.; Piater, J.; Rodriguez-Sanchez, A. J.; Wiskott, L. (August 2013). "Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision?". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1847–1871. doi:10.1109/TPAMI.2012.272.
  • Poggio, Tomaso; Riesenhuber, Maximilian (November 1, 1999). Nature Neuroscience. 2 (11): 1019–1025. doi:doi:10.1038/14819. {{cite journal}}: Check |doi= value (help); Missing or empty |title= (help)
刺激减少实验
视觉系统中学习的证据
  • Li, Nuo; DiCarlo, James J. (September 23, 2010). "Unsupervised Natural Visual Experience Rapidly Reshapes Size-Invariant Object Representation in Inferior Temporal Cortex". Neuron. 67 (6): 1062–1075. doi:10.1016/j.neuron.2010.08.029.
  • Raiguel, S.; Vogels, R.; Mysore, S. G.; Orban, G. A. (June 14, 2006). "Learning to See the Difference Specifically Alters the Most Informative V4 Neurons". Journal of Neuroscience. 26 (24): 6589–6602. doi:10.1523/JNEUROSCI.0457-06.2006.
  • Schoups, A; Vogels, R; Qian, N; Orban, G (August 2, 2001). "Practising orientation identification improves orientation coding in V1 neurons". Nature. 412 (6846): 549–53. PMID 11484056.
深度学习研究现状的最新且易于理解的概述
  • Jones, Nicola (January 8, 2014). "Computer science: The learning machines". Nature. 505 (7482): 146–148. doi:10.1038/505146a.

运动感知

[edit | edit source]

运动感知是推断运动物体速度和方向的过程。人类的 V5 区和灵长类动物的 MT 区(中间颞区)负责运动皮质感知。V5 区是外侧枕叶的一部分,它是大脑枕叶区域,靠近初级视觉皮层。V5 区的功能是检测视觉刺激的速度和方向,并将局部视觉运动信号整合到全局运动中。V1 区或初级视觉皮层位于大脑的枕叶,左右半球都有。它处理视觉信息的第一个皮质处理阶段。这个区域包含眼睛覆盖的视觉场的完整地图。V5 区和 V1 区(初级视觉皮层)之间的区别在于,V5 区可以将局部信号或物体各个部分的运动整合到整个物体的全局运动中。另一方面,V1 区对发生在感受野内的局部运动作出反应。来自这些众多神经元的估计值在 V5 区整合在一起。

运动被定义为视网膜照度随空间和时间变化的变化。运动信号被分类为一阶运动二阶运动。这些运动类型在以下段落中简要描述。

"Beta 运动"示例。

一阶运动感知指的是当两个或多个视觉刺激在时间上交替出现并消失,从而产生不同的运动感知时,所感知到的运动。一阶运动也被称为“视运动”,它被用于电视和电影中。一个例子是“β运动”,这是一种错觉,其中静止的图像看起来在移动,尽管它们实际上并没有移动。这些图像之所以呈现出运动的外观,是因为它们的变化和移动速度快于人眼所能探测的速度。这种视觉错觉之所以发生,是因为人类视神经每秒响应十次光变化,因此任何快于这个速度的变化都会被记录为连续运动,而不是单独的图像。

二阶运动指的是当一个移动的轮廓由对比度、纹理、闪烁或其他一些不导致图像亮度或运动能量增加的质量来定义时发生的运动。有证据表明,一阶运动和二阶运动的早期处理是由不同的通路进行的。二阶机制具有较差的时间分辨率,并且在它们响应的空间频率范围内是低通的。二阶运动产生较弱的运动后效。一阶和二阶信号在 V5 区域整合。

在本章中,我们将分析运动感知和运动分析的概念,并解释为什么这两个术语不应该互换使用。我们将分析感知运动的机制,如运动传感器和特征跟踪。存在三种主要的理论模型试图描述运动神经元传感器的功能。已经进行了实验测试来确认这些模型是否准确。不幸的是,这些测试的结果是不确定的,可以说,没有一个模型能够完全描述运动传感器的功能。然而,每个模型都模拟了运动传感器的某些特征。本章还描述了这些传感器的某些属性。最后,本章展示了一些运动错觉,证明了我们的运动感可能会被刺激运动传感器的静止外部因素所误导,就像运动一样。

运动分析和运动感知
[编辑 | 编辑源代码]

运动分析运动感知的概念经常被混淆为可以互换的。运动感知和运动分析相互重要,但它们并不相同。

运动分析指的是处理运动信号的机制。与运动感知不一定依赖于视网膜上图像运动产生的信号类似,运动分析可能导致也可能不导致运动感知。这种现象的一个例子是vection,它发生在一个人处于静止状态,但观察到的物体正在移动时,感知到自己正在移动。vection 表明,即使物体没有被感知为来自物体的运动,物体运动也可以被分析。这个关于运动分析的定义表明,运动是一个基本的图像属性。在视觉区域,它在每个点上都被分析。来自这种分析的结果被用来推导出感知信息。

运动感知指的是获得关于图像中物体和表面运动的感知知识的过程。运动感知可以通过视网膜中精细的局部传感器或通过特征跟踪来感知。局部运动传感器是专门的神经元,对运动敏感,类似于专门的颜色传感器。特征跟踪是感知运动的间接方法,它包括根据物体在时间上视网膜位置的变化来推断运动。它也被称为三阶运动分析。特征跟踪通过将注意力集中在特定物体上,并观察其位置随时间的变化来工作。

运动传感器
[编辑 | 编辑源代码]

运动检测是视觉处理的第一阶段,它得益于专门的神经过程,这些过程对图像在时间上局部强度变化的信息做出反应。运动是在图像中所有位置独立于其他图像属性进行感知的。运动传感器的存在已被证实,它们在图像中的所有点上都以局部方式运行。运动传感器是位于视网膜中的专用神经元传感器,能够检测由两个短暂且微小的闪光产生的运动,这些闪光彼此非常接近,以至于特征跟踪无法检测到它们。存在三种主要的模型试图描述这些专门传感器的工作方式。这些模型彼此独立,它们试图模拟运动感知的特定特征。虽然没有足够的证据来支持这些模型中的任何一个代表视觉系统(尤其是运动传感器)感知运动的方式,但它们仍然正确地模拟了这些传感器的某些功能。

两种不同的运动检测机制。左)“Reichardt 检测器”由两个镜像对称的子单元组成。在每个子单元中,两个相邻点上测量的亮度值在其中一个被时间常数为 τ 的低通滤波器延迟后,相互相乘 (M)。乘法器的输出信号最终被减去。右)在梯度检测器中,一个光感受器 (δI/δt,左) 后测量的亮度时间梯度除以亮度空间梯度 (δI/δx)。这里,空间梯度通过两个相邻点上的亮度值之间的差来近似。

Reichardt 检测器

Reichardt 检测器用于模拟运动传感器如何响应一阶运动信号。当一个物体从视觉区域的 A 点移动到 B 点时,会产生两个信号:一个在运动开始之前产生,另一个在运动完成之后产生。这个模型通过检测视网膜上一个点的亮度变化,并将它与另一个相邻点的亮度变化在短时间延迟后的变化相关联来感知这种运动。Reichardt 检测器基于相关(涉及依赖关系的统计关系)的原理运行。它通过相邻点上的亮度信号的时空相关性来解释运动信号。它利用了这样一个事实,即在一个移动物体的轨迹上,两个不同点的两个感受野接收了相同信号的时间延迟版本——亮度模式沿着一个轴移动,轴上一个点的信号是轴上之前信号的时间延迟版本。Reichardt 检测器模型有两个空间上分离的相邻检测器。检测器的输出信号以如下方式相乘(相关):一个信号乘以一个时间延迟版本的第二个信号。相同的过程被重复,但方向相反(时间延迟的信号成为第一个信号,反之亦然)。然后,这两个乘法的差值被取,结果给出运动速度。检测器的响应取决于刺激的相位、对比度和速度。为了编码模式的真实速度,需要许多在不同速度下调谐的检测器。对这种检测器最有力的实验证据来自对 barely visible 目标的方向辨别的研究。


运动能量滤波

运动能量滤波器是一种基于相位不变滤波器原理的运动传感器模型。这个模型构建了在时空上定向的空间时间滤波器,以匹配移动模式的结构。它由可分离滤波器组成,其中空间轮廓在时间上保持相同的形状,但按时间滤波器的值缩放。运动能量滤波器通过将可分离滤波器加在一起,来匹配移动模式的结构。对于每个运动方向,会生成两个时空滤波器:一个是对称的(条状),另一个是非对称的(边缘状)。这些滤波器的平方和被称为运动能量。两个方向的信号差异被称为对抗能量。然后将这个结果除以另一个滤波器的平方输出,该滤波器调谐到静态对比度。进行这种除法是为了考虑对比度对运动的影响。运动能量滤波器可以模拟许多运动现象,但它会产生一个与相位无关的测量值,该测量值随着速度的增加而增加,但不会给出可靠的速度值。


时空梯度


这种运动传感器模型最初是在计算机视觉领域开发的,它基于这样一个原理,即图像亮度的时域导数与图像亮度的空域导数之比给出运动速度。需要注意的是,在图像的峰值和谷值处,这个模型不会计算出适当的答案,因为分母中的导数将为零。为了解决这个问题,可以分析相对于空间和时间的一阶和高阶空间导数。时空梯度是确定图像中所有点的运动速度的一个很好的模型。

运动传感器是方向选择性的
[编辑 | 编辑源代码]

运动传感器的特性之一是方向选择性,它将运动分析限制在一个维度上。运动传感器只能记录沿着与传感器首选方向正交的轴线上的单一维度的运动。包含单一方向特征的刺激只能被感知为沿着与刺激方向正交的方向移动。一维运动信号提供关于二维物体运动的模糊信息。为了确定二维物体或图案的真实运动方向,需要一个第二阶段的运动分析。将来自不同方向调整的传感器的单一维运动信号组合起来,可以产生一个明确的二维运动信号。二维运动分析依赖于来自局部宽泛方向传感器以及来自狭窄方向传感器的信号。

特征追踪
[edit | edit source]

我们感知运动的另一种方式是通过特征追踪。特征追踪包括分析物体的局部特征是否改变了位置,并从这种变化中推断出运动。在本节中,我们将提到一些关于特征追踪的特性。

当移动刺激发生得非常快时,特征追踪会失效。特征追踪相对于运动传感器的一个优势是,即使运动被间歇性的空白间隔隔开,它们也能感知到物体的运动。它们还能区分这两个阶段(运动和空白间隔)。另一方面,运动传感器只会将空白与移动刺激整合起来,并看到一个连续的运动。特征追踪器根据识别特征的位置进行操作。因此,它们有一个最小距离阈值,该阈值与特征位置可以被识别的精度相匹配。特征追踪器不会表现出运动后效应,运动后效应是由视觉适应引起的视觉错觉。当观察到一个移动的刺激后,一个静止的物体看起来似乎朝与之前观察到的移动刺激相反的方向移动。这种机制不可能同时监测视觉场中不同部位的多个运动。另一方面,对于运动传感器来说,多个运动不是问题,因为它们在整个视觉场中并行运行。

使用上述信息进行的实验已经得出了一些关于特征追踪器的有趣结论。对短暂刺激的实验表明,特征追踪器不能感知高对比度的颜色模式和对比度模式,而是由运动传感器感知。对空白间隔的实验已经证实,特征追踪可以在显示屏中存在空白间隔的情况下发生。只有在高对比度下,运动传感器才能感知到色度刺激和对比度模式的运动。在低对比度下,特征追踪器分析色度模式和对比度包络的运动,而在高对比度下,运动传感器分析对比度包络。在受试者进行多个运动判断的实验中,表明特征追踪是一个在意识控制下发生的进程,并且是我们在低对比度显示屏中分析对比度包络运动的唯一方式。这些结果与以下观点一致:对比度包络和颜色模式的运动依赖于特征追踪,除非颜色远高于阈值或平均对比度很高。这些实验的主要结论是,可能是特征追踪使得能够感知对比度包络和颜色模式。

运动错觉
[edit | edit source]

由于运动检测过程,一些静态图像可能看起来像是正在移动。这些图像让我们洞悉了视觉系统所做的假设,被称为视觉错觉。

与一阶运动信号相关的著名运动错觉是闪光现象,这是一种光学错觉,使我们感知到运动而不是图像序列。这种运动错觉使我们能够将电影视为一个连续体,而不是单独的图像。闪光现象使一组以恒定速度变化的静止图像看起来像一个恒定的运动。闪光现象不应该与β运动混淆,因为前者是由一系列发光脉冲引起的视运动,而后者是由发光静止脉冲引起的视运动。

运动错觉发生在运动感知、运动分析以及对这些信号的解释具有误导性时,我们的视觉系统就会产生关于运动的错觉。这些错觉可以根据允许它们发生的进程进行分类。错觉被归类为与运动感测、二维积分和三维解释相关的错觉。

关于运动感测的最流行的错觉是四冲程运动、RDK和二阶运动信号错觉。关于二维积分的最流行的运动错觉是运动捕捉、方格运动和直接排斥。类似地,关于三维解释的错觉是转换运动、运动深度、阴影运动、生物运动、立体运动、隐式图形运动和二冲程运动。存在着更多运动错觉,它们都显示出关于人类运动检测、感知和分析机制的一些有趣的东西。欲了解更多信息,请访问以下链接:http://www.lifesci.sussex.ac.uk/home/George_Mather/Motion/

开放问题
[edit | edit source]

虽然我们仍然不了解关于运动感知的大部分细节,但是理解运动感知机制以及运动错觉可以使读者对该领域的前沿状态有一个很好的概述。关于运动感知的一些开放问题是三维图像在全局运动中的形成机制和孔径问题

来自视网膜的全局运动信号被整合以形成二维全局运动信号;然而,三维全局运动是如何形成的尚不清楚。孔径问题出现是因为视觉系统中的每个感受野只覆盖视觉世界的一小部分,这会导致感知上的模糊性。孔径问题指的是一个移动的轮廓,当局部观察时,与不同的运动可能性一致。这种模糊性源于几何学——与轮廓平行的运动无法检测到,因为这种运动分量的变化不会改变通过孔径观察到的图像。唯一可以测量的分量是垂直于轮廓方向的速度;因此,运动速度可以是速度空间中一条线上的任何运动。这种孔径问题不仅在直线轮廓中观察到,而且在平滑弯曲的轮廓中也观察到,因为它们在局部观察时近似于直线。虽然解决孔径问题的机制仍然未知,但存在一些关于如何解决它的假设。例如,通过组合来自空间或同一物体的不同轮廓的信息,可以解决这个问题。

结论
[edit | edit source]

在本章中,我们介绍了运动感知以及我们的视觉系统检测运动的机制。运动错觉表明运动信号可能是具有误导性的,因此会导致关于运动的错误结论。重要的是要记住,运动感知和运动分析并不相同。运动传感器和特征追踪器相互补充,使视觉系统感知运动。

运动感知很复杂,它仍然是一个开放的研究领域。本章描述了关于运动传感器功能的模型,以及关于特征追踪器特性的假设;然而,需要更多实验来了解这些机制的特性,并能够构建更准确地模拟视觉系统实际过程的模型。

本章描述的各种运动分析和运动感知机制,以及为描述它们而设计的人工模型的复杂性证明了皮层处理来自外部环境的信号的方式非常复杂。数以千计的专门神经元整合和解释局部信号的片段,在我们的大脑中形成移动物体的全局图像。理解如此多的参与者和过程必须在我们体内协同工作才能感知运动,这使得我们人类能够如此轻松地做到这一点,这一点更加令人瞩目。

华夏公益教科书