跳转到内容

感觉系统/计算机模型/高效编码

来自维基教科书,开放世界中的开放书籍

高效编码

[编辑 | 编辑源代码]

为什么我们需要高效编码?

[编辑 | 编辑源代码]

如前所述,视觉信号在视觉皮层中被处理以解释信息。在了解了视觉信息的处理方式之后,就出现了如何对信息进行编码的问题。

输入数据量

[编辑 | 编辑源代码]

尤其是在视觉系统中,数据量巨大:视网膜每秒感知约 1010 位,其中约 3-6 * 106 位/秒通过每个视神经中的约 100 万个轴突传递。[1] [2] 结果是只有 104 位/秒到达 V1 的 IV 层。由于估计意识的容量 <= 100 位/秒1,减少数据量不仅足够,而且是必要的。

处理速度和准确性

[编辑 | 编辑源代码]

在人类中,神经细胞的放电速率约为 0.2 Hz 到 10 Hz。[3] 信息的编码也依赖于精确的放电时间和频率。[4] 更难的是,处理网络还必须处理噪声:视网膜噪声,即“视网膜感光细胞电信号的自发波动”[5],出现在视杆细胞中,由视紫红质的热分解产生,创造出“与光落在视杆细胞上并吸收一个量子时发生的事件无法区分”的事件[6],也出现在锥体细胞中,具有分子起源。[4] 有人认为,视网膜噪声比中枢神经系统中由神经细胞突触随机活动产生的噪声更能限制视觉敏感度,从而产生额外的动作电位。[7]

每项神经活动都需要能量:大脑消耗约 20% 的静息代谢。每个神经元每秒增加一个动作电位将使氧气消耗量增加 145 毫升/100 克灰质/小时。人类血液循环系统每分钟向人类大脑提供约 1.5 升血液,为其提供能量和氧气。 “对于活跃细胞中 4 Hz 的动作电位频率,大约 15% 的神经元组应该同时活跃以编码一个条件”。[8]

解决方案

[编辑 | 编辑源代码]

为了处理速度、准确性和可用能量有限的神经系统需要处理的海量数据,需要高效的编码。

在听觉系统中,人类(言语)交流所依赖的基本结构是音素,即语言中区别一个词与另一个词的不同基本声音元素。[9] 例如,“eye”这个词只包含一个音素 /ai/,而“code”这个词包含 /k/、/ə/、/ʋ/、/d/ 这些音素。

类似地,对于视觉系统,一个高效的编码将由图像结构作为基本元素组成,这些元素可以组合在一起以表示感知到的环境(即图像)。 作为一个保留视觉感知场的基本特征的模型,Olshausen & Field 提出了一个优化算法,该算法在保留图像信息的同时找到稀疏编码。[10]

技术演示

[编辑 | 编辑源代码]
编码和解码过程

信息压缩的原理可以用“k-means”方法很好地演示,该方法应用于(二维)图像。这是作为 python 库 scikit-image 的一部分实现的。[11] 如图 1 所示,该方法是压缩图像或一般数据,处理它,然后将其转换回来。这样处理步骤更有效,并且与生物系统中存在的方法相比,还存在无损压缩方法,例如小波,它允许正确的反向转换。

生物系统不需要无损压缩。信息丢失用前面提到的 scikit-learn[11] 和 youtube[12] 上的 k-means 算法示例说明。

介绍

在 20 世纪 90 年代末和 21 世纪初,Bruno Olshausen 和 Michael Lewicki 分别研究了大脑如何编码自然图像[10] 和自然声音[13],并试图创建一个尽可能准确地复制此过程的模型。发现两种输入信号的过程可以用非常相似的方法建模。高效编码理论的目标是使用一组统计独立的特征[14] 隐藏关于刺激的最大信息量。自然图像的高效编码产生了一组局部化的、定向的、带通的 Gabor 小波状滤波器[10],[15]。伽马音滤波器是听觉系统中这些滤波器的等效物。为了区分图像中的形状,最重要的特征是边缘检测,这是通过 Gabor 滤波器实现的。在声音处理中,声音起始或“声学边缘”可以由类似于伽马音滤波器组的滤波器池编码[13]

视觉

1996 年,Bruno Olshausen 和他的团队首次创建了一个学习算法,该算法旨在为自然图像找到稀疏线性编码,并最大限度地提高稀疏性,从而形成一组局部化的、定向的、带通的感受野,类似于在初级视觉皮层中发现的那些[10]

它们从假设一个图像 可以被描述为基函数的线性叠加开始,

参数 取决于选择了哪些基函数 ,并且对于每个图像都是不同的。有效编码的目标是找到一组 ,它们 *跨越图像空间* 并且 *获得尽可能在统计上独立的参数 *。

自然场景包含许多非高斯的高阶统计结构 [16]。因此,使用主成分分析来实现这两个目标将是不合适的。一旦联合熵小于各个熵的总和,就可以检测出一组参数之间的统计依赖关系

这里指的是 香农熵,它是变量的期望值(平均值)。联合熵 是衡量与一组变量相关的随机性的指标。假设自然图像具有“稀疏结构”,这意味着图像可以用大量特征中的一小部分特征来表示 [17],[16]。目标是寻找降低熵的代码,其中每个参数的概率分布是单峰的,并且在零附近达到峰值。这可以被表述为一个优化问题 [14]

其中 是正的权重系数。第一个量评估自然图像与重建图像之间的均方误差。

如果对于给定的图片,不同的参数以稀疏方式分布,则第二个量将被赋予更高的成本。这是通过将每个系数的活动加起来,代入一个非线性函数 来计算的。

其中 是一个缩放常数。对于 ,函数偏向于方差相等且非零参数数量最少的活动状态(例如 )。

通过最小化总成本 关于 ,实现了学习。 通过对多个图像变化的平均 的梯度下降收敛。该算法使基函数能够在维度上过完备且非正交[18],而不会降低稀疏性状态。

在学习过程之后,该算法在人工数据集上进行了测试,确认它适合于检测数据中的稀疏结构。基函数很好地定位、定向,并且对不同的空间尺度具有选择性。将每个 对斑点的响应排列到每个位置,建立了感受野和基函数之间的相似性。所有基函数共同形成一个完整的图像代码,以类似于小波代码的方式跨越空间位置、方向和尺度的联合空间。

总之,Olshausen 团队的结果表明,局部、定向、带通感受野出现的两个充分目标是信息得以保留以及表示是稀疏的

听觉

图 1:时频分析。(a)傅里叶变换中的滤波器在频率上局部化,但在时间上不局部化。(b)小波滤波器在时间和频率上都局部化。(c-e)信号的统计结构决定了从不同数据集合的有效编码中推导出的滤波器形状在时频空间中的分布方式。每个椭圆形是时频空间中单个滤波器范围的示意图。(c)环境声音。(d)动物发声。(e)语音。

Lewicki 在 Olshausen 之后于 2002 年发表了他的研究结果。他测试了受先前论文启发的有效编码理论,以推导出针对不同类别自然声音的有效代码,这些代码包括动物发声、环境声音和人类语音。

他们使用了独立成分分析 (ICA),它能够提取信号的线性分解,从而最大程度地减少相关性和高阶统计依赖性[19]。然后,这种学习算法为每个数据集生成一个滤波器,该滤波器可以解释为时频窗口的形式。滤波器形状由集合的统计结构决定[13]

当应用于不同的样本声音时,该方法获得了具有类似于小波的时频窗口的滤波器,用于环境声音,其中声音在时间和频率上都局部化(图 1c)。对于动物发声,获得了类似于傅里叶变换的平铺模式,其中声音在频率上局部化,但在时间上不局部化(图 1d)。语音包含两者的混合,其中环境声音与动物声音的权重为 2:1(图 1e)。这是因为语音是由谐波元音和非谐波辅音组成的。这些模式以前曾在动物和人类中通过实验观察到[20]

为了分解这三种声音类型的核心差异,Lewicki 的团队分析了带宽、滤波器锐度和时间包络。对于环境声音,带宽随中心频率的增加而增加,而对于动物发声,带宽保持恒定。语音也增加,但低于环境声音。由于时间/频率权衡,时间包络曲线表现相似。当将锐度相对于中心频率与生理测量[21],[22](来自语音数据)与组合声音集合的锐度进行比较时,确认了两种复杂性之间的对应关系。

必须注意的是,为了进行这种分析,需要进行几个近似。他们的分析忽略了声音强度的变化。听觉系统遵循某些强度阈值,根据这些阈值选择频率[23]。然而,与这些测量结果进行比较的生理测量结果是使用孤立的纯音进行的,这反过来限制了这种模型的应用范围,但并没有使其失去信誉。此外,滤波器在时间上的对称性与生理特征的“伽马音调滤波器”不匹配。修改算法使其具有因果性是可能的,然后滤波器的时间包络将变得不对称,类似于伽马音调滤波器。

结论

这两个系统之间出现了一种类比。视觉刺激的位置和空间频率由视觉皮层中的神经元编码。这两个变量之间的调整类似于听觉编码中时间和频率之间的调整。

这种并行性的另一个有趣的方面是为什么 ICA 在听觉系统分析的早期阶段阐明了神经元响应特性,而在视觉系统中阐明了皮层神经元的响应特性。必须注意的是,这两个系统的 神经元 解剖结构有所不同。在视觉系统中,瓶颈出现在视神经处,其中来自 1 亿个光感受器的信息被压缩到 100 万个视神经纤维中。然后,信息在皮层中扩散了 50 倍。在听觉系统中,没有出现瓶颈,来自 3000 个耳蜗内毛细胞的信息直接传递到 30000 个听觉神经纤维上。然后,ICA 实际上被分配到表示扩展点[24]

参考资料

[edit | edit source]
  1. Marcus E. Raichle:关于大脑功能的两种观点 趋势认知科学。2010 年 4 月;14(4):180-90
  2. Anderson, C.H. 等人。(2005)定向视觉注意和信息流的动态控制。在注意的神经生物学(Itti, L. 等人,编辑)中,第 11-17 页,爱思唯尔
  3. György Buzsáki & Kenji Mizuseki:对数动力学大脑:偏斜分布如何影响网络操作,图 3 e、f:http://www.nature.com/nrn/journal/v15/n4/fig_tab/nrn3687_F3.html
  4. a b Wulfram Gerstner、Andreas K. Kreiter、Henry Markram 和 Andreas V. M. Herz:神经代码:放电率及其以外,http://www.pnas.org/content/94/24/12740.full
  5. Fred Rieke,Denis A. Baylor,视网膜锥体中暗噪声的起源和功能影响,神经元,第26卷,第1期,2000年4月,第181-186页,ISSN 0896-6273,http://dx.doi.org/10.1016/S0896-6273(00)81148-4
  6. H. B. Barlow:视网膜噪声和绝对阈值,J Opt Soc Am。1956年8月;46(8):634-9
  7. Jonathan B. Demb,Peter Sterling,Michael A. Freed:视网膜神经节细胞如何防止突触噪声到达尖峰输出,神经生理学杂志,2004年10月1日出版,第92卷第4期,2510-2519
  8. David Attwell 和 Simon B. Laughlin:大脑灰质中信号传递的能量预算
  9. https://en.oxforddictionaries.com/definition/phoneme
  10. a b c d Olshausen,B. A. & Field,D. J. 通过学习自然图像的稀疏代码,简单细胞感受野属性的出现。自然 381,607-609(1996)
  11. a b https://scikit-image.cn/docs/dev/auto_examples/features_detection/plot_gabors_from_astronaut.html#sphx-glr-auto-examples-features-detection-plot_gabors_from_astronaut-py
  12. https://www.youtube.com/watch?v=8V7QVLTghac
  13. a b c Lewicki,M. 自然声音的有效编码自然神经科学。 5,356-363(2002)
  14. a b Barlow,H.B. 传感信息转换的潜在原则。在感觉交流(编辑:Rosenbluth,W.A.)217-234(麻省理工学院出版社,剑桥,1961)。
  15. Bell,A.J. & Sejnowski,T: J: 自然场景的“独立成分”是边缘过滤器。视觉研究。 37,3327-3338(1997)。
  16. a b Field,D. J. 感觉编码的目标是什么?神经计算。 6,559–601(1994)。
  17. Field,D. J. 自然图像统计与皮层细胞响应特性之间的关系。J. 光学学会。A 12,2379–2394(1987)。
  18. Daugman,J.G. 计算神经科学(编辑:Schwartz,E.)403-423(麻省理工学院出版社,剑桥,马萨诸塞州,1990)。
  19. Hyvarinen,A.,Karhunen,J. & Oja,E. 独立成分分析(Wiley,纽约,2001)
  20. Ehret,G. 在听力研究进展。第10届国际听力研讨会论文集(编辑:Manley,G. A.,Klump,G. M.,Koppl,C.,Fastl,H. & Oekinghaus,H.)387-400(世界科学出版社,伦敦,1995)。
  21. Evans,E. F. 耳蜗神经和耳蜗核。在感觉手册生理学第5/2卷(编辑:Keidel,W. D. & Neff,W. D.)1–108(施普林格出版社,柏林,1975)。
  22. Rhode,W. S. & Smith,P. H. 猫听觉神经纤维中音调脉冲响应模式的特征与自发率的关系。听力研究。 18,159–168(1985)。
  23. Evans,E. F. & Palmer,A. R. Exp. Brain Res. 40,115–118(1980)。
  24. Olshausen,B. A. & O'Connor K. N. 声音的新视角自然神经科学。 5,292-295(2002)
华夏公益教科书