Research on Neural Encoding Models for Biological Vision: Progress and Challenges
-
摘要: 视觉系统通过神经元将丰富且密集的动态视觉刺激编码成时变的神经响应。探寻视觉刺激与神经响应之间函数关系是理解神经编码机理的一种常见手段。该文首先介绍了视觉系统的神经编码模型,归纳为两类:生物物理编码模型和人工神经网络编码模型。然后介绍了各种模型的参数估计方法。通过对比各种模型的特性,总结了各自的优势、应用场景及所存在问题。最后,对视觉编码研究的现状以及未来面对的挑战进行了展望。
-
关键词:
- 类脑视觉 /
- 生物视觉系统 /
- 生物物理编码模型 /
- 人工神经网络编码模型 /
- 系统辨识
Abstract: The visual system encodes rich and dense dynamic visual stimuli into time-varying neural responses through neurons. Exploring the functional relationship between visual stimuli and neural responses is a common approach to understanding neural encoding mechanisms. Neural encoding models of the visual system are presented throughout this paper, which can be grouped into two categories: biophysical encoding models and artificial neural network encoding models. Then parameter estimation methods for various models are introduced. By comparing the characteristics of various models, the respective advantages, application scenarios and existing problems are summarized. Finally, the current situation and future challenges of visual encoding research are summarized and forecasted. -
1. 引言
视觉是大脑中的一个重要组成部分,理解视觉系统的工作机理对神经科学、机器视觉都有着重要的意义。视网膜神经元捕获外部视觉信息并产生脉冲,经由外侧膝状体传输到视觉皮层,最后形成视觉感知。其中广泛存在的视觉编码是指神经元将丰富且密集的视觉刺激编码为动态的神经活动,是脑科学研究的关键问题,不仅具有重要的理论研究意义,而且具有实际的工程意义。一方面可以揭示人脑视觉系统加工处理信息的工作机理;另一方面可以根据计算机理来建立人工视觉系统:如视觉假体与视觉芯片应用。神经假体是一种区别于传统药物治疗的一种治疗方法,可以替代身体、大脑的某些部分(例如受损运动、感觉和认知性行为),直接作用于神经元[1,2]。人工耳蜗作为一种感觉神经假体已被广泛应用,可帮助听力受损的人,并且表现良好[3,4]。然而与听觉相比,视觉神经假体的效果并不理想。视觉神经假体的研究可被分为两大方向:硬件和软件。材料的选择和设计是硬件部分研究的核心[5,6],而计算模型的设计则是软件部分的重中之重。如何设计更好的刺激-响应的编码器,则成为一个十分重要且必须要跨越的难点。近年关于视觉芯片的研究也取得了很多进展,但是在处理实际中的复杂场景的任务上,依然远不及生物视觉系统。开发可模仿生物视觉的具有高清晰、低冗余、低功耗、鲁棒性强的仿生视觉传感器便成为研究热点。最近,受视网膜中央凹的信息处理机制启发,北京大学在视网膜芯片设计方面取得进展,由该芯片装备的脉冲相机是一种新型的神经形态相机[7]。应用场景十分广泛,包括图像重建[8-10]、高速运动物体的检测跟踪识别[7,11]和光流估计[12,13]等。视觉系统编码的研究也为计算机科学、人工智能和脑科学的发展提供了新的手段。本文对经典的视觉编码模型进行了总结,指出模型的优势与不足,并对未来发展所面对的挑战进行了展望。
2. 生物物理编码模型
传统视觉系统的编码研究的重点是描述感觉刺激和神经反应之间关系的功能模型。随着研究者对神经系统的了解也逐渐深入,通过设计了更多的生理可解释的计算组件来完善模型的构建。
2.1 线性模型
在最简单的情况下,可以假设神经元的响应是仅由一个滤波器的作用而输出的,如:r(t)≈∫t−∞dτk(τ)s(t−τ)=KTS(t)。其中s(t−τ)表示t时刻之前长度为τ的刺激序列,而k(τ)为长度为τ的滤波器,r(t)是在t时刻神经响应,K为滤波器矩阵,S为刺激序列矩阵。线性模型(如图1)认为感受野仅对有限范围内的刺激做出响应。既模型在t时刻用于描述响应r(t)的输入,仅限于从t到t−τ之间的刺激。
通过最小化预测响应与真实响应之间的差距以获得模型参数。但在真实实验的多次相同的刺激下,神经元的响应并不相同。为此,许多研究假设响应的变异性呈高斯分布,滤波器的输出也具有固定的方差。多次试验下,分别在建模脉冲平均发放率[14]和阈下膜电位[15]该方法取得一定的效果。但该模型的问题在于恒定方差的假设难以维持,此外高斯响应噪声的假设难以适用单次试验情况,从而导致应用范围受限。
2.2 线性非线性泊松模型
感知涉及诸如亮度和声音强度等基本特征的检测,其神经元计算应是非线性的,以便产生更复杂的选择性。经过大量的实验和经验的总结认为使用非线性函数代替滤波器积分刺激后的线性函数更合理,因此发展出了经典的线性非线性(Linear-Nonlinear, LN)模型。LN模型主要经历两个阶段,第1阶段,刺激经过线性滤波器 [16]。这些滤波器编码了神经元整合输入的方式,表示在该神经元的敏感区域,刺激随时间变化让该神经元做出响应。第2阶段是非线性获得神经脉冲信号的输出。模型描述为r(t)≈f(KTS(t))。其中f就是非线性函数。根据所建模的神经元的特点,设计不同种类的非线性函数。当数据量足够时,使用更复杂的刺激也可以通过最大似然估计或者最大信息维度[17]对模型参数进行估计。
当假设脉冲时间仅受刺激的影响,否则完全相互独立。且脉冲时间的分布受以刺激为条件的泊松过程控制,即所有采样时间间隔内的脉冲计数分布必须遵循泊松分布,由此得到线性非线性泊松(Linear-Nonlinear Poisson, LNP)模型[18]。最常见的参数估计方法是基于最大似然估计(Maximum Likelihood Estimation, MLE)[19]。此外,由于泊松分布假设了脉冲时间的独立性,因此可以使用最大信息维度的方法进行参数估计。最大信息维度估计(Maximally Informative Dimensions, MID)是信息论提供了一个直观的方法[17],即最大化刺激在滤波器方向上的投影与响应之间的互信息。该方法最大的优点是,突破了以往只能在高斯刺激下描述刺激与响应之间的函数关系。
2.3 增益控制模型
研究表明,当外界刺激对比度低时,神经元会重新调整其增益,让神经元对刺激的微小变化变得更加敏感。这种现象普遍的存在于感觉系统,也是感觉系统中许多计算的基础,称为增益控制机制[20]。主要表现为神经元的响应根据最近刺激的对比度动态调整,或者在空间上感受野外周刺激成分也会影响神经响应。在LNP中,增益的差异通过输出非线性的形状的变化表现出来,主要包括水平缩放对应于增益的变化,沿x轴偏移表示阈值变化,沿y轴偏移对应于最小发放率的变化。因此,增益模型通常会建模为,r(t)≈f((k(τ)s(t−τ)−u(s(t−τ)))/v(s(t−τ)))。其中u(s)和v(s)分别表示根据刺激s移动和结果。视觉系统中的神经元受到对比度增益控制,这被认为是自然图像的有效编码的理想选择。由于自然图像的对比度在空间和时间上是相关的,因此通过刺激对比进行归一化可以减少神经编码的冗余[21]。当刺激水平统计数据在整个频谱中不均匀时,增益控制也不均匀地应用于神经元,这取决于它们的频率调谐。如果神经元的调谐曲线与该波段重叠,则高对比度的光谱受限波段对神经元的压缩作用最大。相反,调谐到其他频率的神经元对其输入的微小变化保持敏感。由于自然环境不能均匀地覆盖整个可视范围,因此这种安排可能会使对比度适应每个特定环境带来的挑战。
2.4 线性非线性层级模型
简单线性空间滤波的一个基本假设是系统的所有相关非线性都可以包含在输出级的处理中,在空间(和时间)上的刺激积分已经发生之后。这与非线性空间积分的发现相冲突。人们认为,这种非线性空间整合也会影响视网膜神经节细胞对自然刺激的反应,导致使用单个空间滤波器的模型方法失败[22-24]。由于非线性空间整合源于神经节细胞对具有较小感受野的突触前双极细胞的非线性汇集,因此可以通过使用多个空间过滤器(模型的子单元)来明确包含此网络结构来改进模型,并且并行和在求和之前对子单元信号进行非线性变换。这对应于两个LN模型的序列,因此通常称为线性非线性层级模型(LNLN)[25]。
2.5 非线性输入模型
McFarland等人[26]在此基础上提出非线性输入模型(Non-linear Input Model, NIM)(如图2),假设感觉处理中的脉冲生成主要非线性限制来自终于神经元输入的校正以及神经元输出的校正。通过假设神经元的输入被纠正,NIM隐式地将神经元处理描述为兴奋性和抑制性输入的总和,该假设逐渐被视为感觉处理中的重要因素[27]。由于其相对简单的模型结构,参数估计表现良好,并且即使相关输入的数量很大或者刺激维度很高,也能有效地利用数据。因此,NIM可以捕获更广泛的非线性响应函数,同时提供神经计算的生理学上可解释的描述,为非线性建模提供了一种强大而通用的方法,并补充了依赖于更抽象的非线性计算方法。
2.6 广义2次模型
虽然感觉刺激是高维的,但感觉神经元通常只对少数刺激特征敏感。线性降维方法寻求根据由少量时空滤波器的子空间来识别这些特征。这些滤波器描述了刺激如何在空间和时间上进行整合,可以被视为神经反应“级联”模型的第1阶段。而原则上,可以使用通用函数扩展来表征非线性神经响应函数。一种方法是使用基本线性模型的多项式展开,Volterra/Wiener核级数展开[28]。广义2次模型就正是对2阶Volterra模型的扩展。通过使用2次函数代替线性预测值,Park等人[29]提出了广义2次模型(Generalized Quadratic Model, GQM),用以表征神经对高维感官刺激的反应。GQM由低阶2次型组成,其后是点非线性和指数族噪声。其中的2次型指的是一组线性感受野和2次函数组合来表征神经元的刺激选择性,可逆非线性将此输出映射到期望的响应范围。GQM的特殊情况包括2阶Volterra模型和椭圆LNP[30]。这里证明了对于正则形式GQM,前两个响应加权矩的谱分解通过一个称为期望对数似然量产生近似最大似然估计量。此外,GQM提供了一个用于在单个模型中组合多维刺激敏感性和脉冲历史依赖性的框架。
2.7 基于脉冲神经网络的编码模型
脉冲神经网络是近年来研究重点,通过模拟神经元在接收到外部信号的过程中膜电位(membrane potential)的变化。在真实场景中,膜电位的变化是由离子通道控制的,包括钠、钾和氯离子等。这类受生物物理启发的脉冲神经元有很多,精度很高但计算同样复杂的HH(Hodgkin-Huxley ) 模型,该模型复杂,由4个非线性微分方程表示,可以详细精确地描述各类离子通道的动态编码。一种折中的选择是Izhikevich模型。保留了生物精度并且运算复杂度也相对较低。而漏电积分发放模型由膜电容和膜电导等价后建立,计算复杂度低,广泛应用于脉冲神经网络中。结合视觉系统的建模,已有工作使用漏电积分发放模型神经元搭建多层脉冲神经网络 [31]。
3. 基于人工神经网络的编码模型
近年来,深度神经网络(Deep Neural Network, DNN)成为计算机视觉任务中的一个强大的模型[32]。目前生物物理模型仅适用于人工刺激,基于人工神经网络的方法可适用于自然图像,但难以解释底层网络结构组件,同时难以生成与真实大脑一致的编码脉冲信号。
3.1 基于卷积神经网络的编码模型
Dicarlo组最先使用深度学习及变体来研究视觉的编码问题[33],他们搭建一个卷积神经网络(Convolutional Neural Network, CNN)来预测视觉系统的腹侧通路中高级视觉皮层的神经响应。发现该模型与人类在对象分类任务中的表现相匹配。尽管没有明确限制匹配神经数据,但该模型结果证明对V4和下颞皮质的神经反应具有高度预测性。随后,大量使用深度学习方法对视觉通路开展研究的工作喷涌出现,并对神经元响应的预测表现良好[34-38]。
相对于视觉系统,视网膜的环路更加清晰,以此为对象使用卷积神经网络建模更易实现[39,40]。利用卷积神经网络对大量数据的学习能力,可用于验证其对复杂的自然场景刺激的编码。首先使用深度卷积神经网络模型捕获视网膜对自然场景响应的组是Ganguli团队[41]。他们设计了一个3层的网络,包括两层卷积层和1个全连接层。实验结果证明该模型几乎可以在细胞反应的可变性范围内捕获视网膜对自然场景的反应,并且比LN和广义线性模型更准确。此外,还发现了CNN的另外两个令人惊讶的特性:当对少量数据进行训练时,它们比LN更不容易出现过拟合,当对来自不同分布(例如自然场景和白噪声之间)的刺激进行测试时,它们的泛化效果更好。这项工作表明 CNN 不仅可以准确地捕捉感官电路对自然场景的响应,而且可以产生有关电路内部结构和功能的信息。
3.2 基于循环神经网络的编码模型
视觉系统并非单纯的前向网络,而包含非常丰富种类的连接方式注定需要在卷积神经网络之外增添新的网络结构以进一步逼近大脑状态,例如循环网络。视觉皮层模型的研究强调了循环连接在模型本身的视觉处理中的作用[42,43]。这些连接有助于“填充”缺失的数据,许多研究表明真实的视觉皮层允许大脑“预测”未来的刺激[44,45]。视网膜神经节细胞(Retinal Ganglion Cells, RGC)可以通过电突触横向连接,即间隙连接或特定的无长突细胞[46,47]。横向连接允许视网膜检测物体和背景的差异运动,而无长突细胞的特定不对称连接有助于RGC显示方向选择性[48]。鉴于间隙连接和循环连接在视网膜对动态视觉场景的有效编码中作用[49],Zheng等人[50]提出了一种基于卷积循环网络的模型对视网膜神经节细胞网络进行建模。其中的两层卷积网络模拟视网膜前馈连接,此外增加1层循环网络,最后经由全连接网络输出编码的神经信号。网络设置为,第1层卷积网络中的卷积核大小为25×25,在第2层网络的卷积核大小为11×11,循环连接层中的单元将使用L2规范化。基于长短时记忆的模型能对动态自然图像刺激产生更好的编码效果。揭示了神经元群体如何协同工作以编码更大的自然场景,使用的深度学习模型识别视网膜回路的计算元素有助于学习自然场景动力学。此外,该模型在模拟数据中学到了神经节细胞时空感受野的形状和位置。
4. 参数估计方法
4.1 最大似然估计法
大多数模型明确或隐含地定义响应的概率分布,给定刺激和一些参数,例如非线性或感受野的权重。通过评估在此分布下观察到的数据的概率,对于已知刺激但变化的参数,可以获得了模型参数上的似然函数。使该函数最大化的参数值以及观测数据的概率,形成最大似然估计器。假设神经元的脉冲在离散时间内由带有速率函数的条件非均匀泊松计数过程描述,则给定一组观测到的脉冲计数Robs(t)的模型参数的对数似然由LL=∑t(Robs(t)lnr(t)−r(t))给出,r(t)为发放率。
4.2 最大信息维度
最大似然估计不是1维的估计器。Sharpee等人[17]提出了最大信息维度的方法,该方法允许对非高斯且表现出强相关性的自然刺激的神经反应进行统计分析。他们认为神经元对高维刺激空间中的少数刺激维度具有选择性,但在这个子空间内,响应可以是任意非线性的。现有的分析方法基于刺激和响应之间的相关函数,但这些方法保证仅在高斯刺激集合的情况下有效。作为相关函数的替代方案,通过最大化神经反应和刺激投射到低维子空间之间的互信息。该过程可以通过增加该子空间的维数来迭代地完成。那些允许恢复脉冲和完整未投影刺激之间的所有信息的维度描述了相关的子空间。如果相关子空间的维度确实很小,那么即使在完全自然的刺激条件下也可以映射神经元的输入输出函数。由于假设了脉冲是根据对低维子空间的投影生成的。因此,为了表征刺激空间中特定方向v的相关性,将所有呈现的刺激投影到v上。
4.3 脉冲激发平均法
由于白噪声刺激具有良好的统计特性,因此,Chichilnisky[18]提出了一种白噪声技术,用于估计视觉系统神经元的响应特性—神经元的时空感受野称为脉冲激发平均法(Spike-Triggered Average, STA)。该技术简单、可靠、高效、非常适合来自多个神经元的同时记录。它提供了一个完整且易于解释的光响应模型,即使对于显示常见形式的响应非线性的神经元,也排除了经典的线性系统分析。具体操作步骤为,采集在白噪声刺激下神经节细胞的脉冲响应序列及刺激。以此获得引发脉冲的刺激集合—脉冲激发刺激集合,然后对其进行平均便获得了所记录神经元的感受野。若刺激是时空3维的,则获得时空感受野,然后通过奇异值分解分别获得时间滤波器和空间感受野分量。该技术和神经反应的基础模型使用视网膜神经节细胞的记录进行验证,原则上适用于其他神经元。
4.4 脉冲激发协方差法
感觉神经元的反应通常使用整流线性子单元的加权组合进行建模。由于这些子单元通常不能被直接测量,因此需要一种灵活的方法从下游神经元的反应中推断出它们的性质。而脉冲激发平均法只能为单个滤波器的情况做出好的估计。为了对多个滤波器的情况进行直接分析,后续又开发了脉冲激发协方差(Spike-Triggered Covariance, STC)的分析方法[51],STA旨在找到能诱发脉冲的刺激图片集合的平均,而STC则分析其协方差矩阵。对得到的协方差矩阵进行特征向量分析,找到与原始刺激协方差更加不同的方向,来推断多个滤波器的情况。这是一种寻找低维子空间的方法。但是后来发现,STC虽然可以得出不止一个方向,但依然不是纯粹的子单元的滤波器,而是一些子单元的组合。
4.5 脉冲激发非负矩阵分解法
大脑中的神经元回路非常复杂。即使对于视网膜这个相对简单的神经元回路来说,其底层结构,特别是功能特征,仍然没有完全被理解。最近一项研究提出了一种称为脉冲激发非负矩阵分解的方法(Spike-Triggered Non-negative Matrix Factorization, STNMF)[22,31,52],用于分析视觉系统潜在结构成分。使用半非负矩阵分解的方法对脉冲激发刺激矩阵进行分解,并对模块矩阵进行稀疏约束。分解后获得权重矩阵W和非负的模块矩阵M。该方法松弛了脉冲激发协方差中使用的正交性约束,从而获得一组非正交的子单元滤波器。通过分析视网膜神经节细胞的脉冲,从STNMF获得的模块矩阵出发,可以识别前一层的子单元双极细胞的物理位置[22]。从权重矩阵出发,可以获得每个子单元双极细胞与神经节细胞之间的连接权重[52]。此外,对权重矩阵每一行进行分析,可以将神经节细胞的每一个脉冲分类到对其贡献最大的子单元双极细胞,从而每个子单元获得脉冲子集。从而通过相关性分析定量地评估感受野推断的准确性。
目前的工作均是在视网膜上展开的研究。随着对算法和视觉系统了解的加深。他们进一步尝试了将STNMF推广到更一般的视觉系统的脉冲神经网络内的功能连接的剖析[31]。这种推广的难点主要有3个:第1点是视网膜传递的是连续信号膜电位,而从视网膜之后传递的都是脉冲,因此传输信号类型变化。第2点是皮层中网络连接开始变得复杂,有很多反馈连接和递归连接等。第3点是在视网膜中常用的白噪声刺激难以诱发皮层中很多神经元的响应。为此,通过设计脉冲神经网络模型模拟视觉系统中的子网络,依次模拟了外侧膝状体到V1的网络、V1简单细胞和复杂细胞的网络、带有反馈连接或弱递归连接的网络,在白噪声刺激甚至使用了自然图像作为刺激图片的实验中验证了STNMF对网络结构的辨识能力。综上所述,这些结果表明,STNMF可以为记录的功能性神经元活动研究其神经元系统提供一种有用的方法。
4.6 脉冲激发聚类法
文献[23]提出了一种通过软聚类脉冲激发刺激对子单元进行最大似然估计的方法,并证明了其在视觉神经元中的有效性。他们使用了分层聚类的方式进行了子单元推断。在视网膜神经节细胞的数据中,可以观察到子单元的分层组织,每次子单元总数增加1个时,1个子单元则被分解成两个。基于贪心法来选择父子单元来进行分解,以保证在每一步产生最大的对数似然增加。最终实验结果表明,对于猕猴视网膜中的视网膜神经节细胞,估计的子单元将感受野划分为紧凑区域,可能代表聚集的双极细胞输入。联合聚类揭示了相邻细胞之间的共享子单元,产生了一个简洁的群体模型。闭环验证,使用位于线性感受野的空间中的刺激,揭示了负极性细胞中比正极性细胞更强的非线性。子单元模型准确地预测了对自然图像的反应、抖动以模拟注视眼球运动。最后,该方法的普遍性在猕猴初级视觉皮层神经元中得到证实。
4.7 张量分解法
寻找神经活动的低维表示是一种常见的解决方案,例如主成分分析、独立组件分析或因子分析,但这些方法通常不能明确地识别时间结构。而张量因子分析作为一种更加高纬度的分解方法,得到了研究者的关注。Onken等人[53]研究了全体脉冲阵列在空间和时间上的张量分解的效果。这些因子分解将单个试验群体脉冲序列的数据集分解为空间放电模式(一起放电的神经元组合)、时间放电模式(这些神经元组的时间激活)和试验依赖性激活系数(每次试验中此类神经模式的强度)。这项工作表明,这种方法可以通过在同时记录的神经元群体中发现信息丰富的空间和时间放电模式,提高对群体编码的认识。类似地,Williams等人[54]也使用了张量分解的方法对神经元群体活动进行降维分析,它可以在试验内和试验间实现多时间尺度维度降低。然后通过拟合张量分解模型,识别沿这3个轴变化的低维分量。结果表明,该方法通过不同的增益调节其在试验中的共同动态,简洁地描述了每个细胞集合的试验与试验之间的变异性。
4.8 联合最小化泊松损失
在人工神经网络常用的参数估计方法有两大类,监督性的和非监督性的。其中监督性的方法,尤其是以最大化模型输出响应与真实神经响应之间相似度的方法称为泊松误差法[39,41,50]。以记录神经元实际发放率作为拟合目标,使用联合最小化泊松损失函数来优化模型,L(r,ˆr)=(ˆr−rln(ˆr))/N。其中N是每次迭代中使用的样本的批量大小。
4.9 无监督方法
深度神经网络目前提供了整个灵长类动物腹侧视觉流中神经元反应模式的最佳定量模型。然而,这些网络作为腹侧流发展的模型仍然不可信,部分原因是它们接受了有监督的方法训练,需要的标签比婴儿在发育过程中可以访问的标签多得多。最近无监督学习的快速进展在很大程度上弥补了这一差距[55]。该研究发现,使用深度无监督对比嵌入方法学习的神经网络模型在多个腹侧视觉皮层区域中实现的神经预测精度等于或超过使用当今最好的监督方法得出的模型,并且这些神经网络模型的隐藏层的映射在神经解剖学上在腹侧流中一致。引人注目的是,即使仅使用从头戴式摄像机收集的真实人类儿童发育数据进行训练,这些方法也会产生类似大脑的表征,尽管这些数据集嘈杂且有限。半监督深度对比嵌入可以利用少量标记示例来生成具有显著改善的错误模式与人类行为一致性的表示。总之,这些结果说明了使用无监督学习来提供多区域皮层大脑系统的定量模型,并为灵长类感觉学习的生物学合理计算理论提供了强有力的候选者。
5. 评估方法
模型构建完成后,通过数据拟合与参数优化获得了一组参数,那么接下来验证模型的拟合的质量就是一项十分重要的任务。本节会讨论不同方法来量化模型捕获神经响应的程度。
5.1 基于发放率的评估
5.1.1 均方误差
对于连续响应,如脉冲速率或局部场电位,估计模型质量的一个常见的方法是衡量估计响应ˆr和测量响应r之间的均方误差(Mean Square Error, MSE)。数据的可变性越高,MSE估计值就越高。因此MSE很难应用到不同脑区之间的响应的度量。甚至在同一区域的不同情况下记录的数据的度量效果也会有失偏颇。为此,通常会使用标准化之后的方法,如R2=(σ2r−σ2e)/σ2r。式中σ2r表示的是平均响应与记录的数据之间的方差,σ2e是估计量与真实记录数据的均方误差。
5.1.2 相关性与相干性分析
相关性衡量两个变量之间的线性相关性程度,续航用样本相关系数,也称为皮尔逊相关系数。皮尔逊相关系数在–1和1之间有界,相关性为1表示预测和实际响应之间存在完美的线性关系,值接近0表示线性无关。若将相关系数居中并归一化,从而使得该系数值不依赖于信号的平均值或标度。在聚焦于捕捉发放率的时间调制而非其整体幅度的环境中,这可能比MSE更具优势。在两个信号之间引入时间差,并在每个时间差处计算相关性,得到一个称为交叉分数图的函数。这可能会揭示预测和测量之间的时间关系,例如时间偏移或相关长度,这些在零时间滞后的相关性中并不明显。两个信号之间线性相关性的另一种常见衡量方式是幅值平方相干性。相干性测量两个过程之间的线性关系强度作为频率的函数。虽然计算成本较高,但与时域相关相比,它有几个重要的优点。首先,对于脉冲数据,相关系数和相关图分析需要对脉冲计数进行分箱,其值取决于分箱的大小。由于脉冲序列信号的傅里叶变换可以在没有显式离散化或平滑的情况下找到,因此相干性的计算不需要分箱。相反,相关性的时间尺度隐含在考虑相干性的频率范围内。
5.2 基于脉冲的度量
5.2.1 脉冲信息量
由LNP的最大信息维度估计量最大化的脉冲信息量,从而提供了对刺激和响应之间互信息的度量,而与神经非线性的形状无关。此外,它不依赖于线性滤波器的缩放比例。因此,最大信息维度估计是用于比较不同LNP的有用度量。然而,从有限数据中对信息理论量进行经验估计并非易事。基于直方图的脉冲信息值估计可能会导致信息估计中出现明显的向上偏差[56]。虽然可以在一定程度上纠正这种偏差,但直方图箱的最佳数量也取决于数据量。因此,必须仔细选择基于直方图的估计器的参数化,或将其作为变量进行研究。一旦确定了适当的参数化,单个脉冲信息可以通过响应中的总信息进行标准化[56],总信息可以通过大量重复试验来估计[57]。
5.2.2 受试工作特征曲线法
正确预测脉冲的问题也可以用检测任务来描述,其目标是成功地检测脉冲。在信号检测理论中,可以通过受试者工作特征曲线 (Receiver Operating Characteristic curve, ROC),又称为感受性曲线(sensitivity curve)来量化检测所需事件的成功率,这是通过绘制不同阈值下正确检测到的脉冲的分数与错误检测到的非脉冲的比例得出的[58]。由于大多数模型的输出仅取决于滤波的刺激,这相当于沿滤波器定义的轴移动阈值,并根据条件分布估计比率。ROC曲线下的面积(Area Under Curve, AUC)提供拟合模型预测性能的一个标量度量。面积为0.5为随机分类,识别能力为0,面积越接近于1识别能力越强,面积等于1为完全识别[59]。
5.3 基于感受野的评估
感受野代表感觉神经元的信号偏好,是理解感觉编码的主要分析方法。在衡量推断的感受野与真实神经元的感受野的匹配程度上,主要分为两大类。第1种是已知真实神经元的感受野,即已知感受野的空间位置和形状大小等信息。第2种是未知感受野的情况。而无论是哪一种情况,由于推断的感受野可能形状并不规则,所以第1步就是先量化感受野的形状和位置。一个常见的方法就是,通过将2维高斯函数拟合空间感受野。感受野大小的估计直径根据d=√a⋅b来估计,其中a和b是拟合高斯椭圆的长轴和短轴[60]。对于视网膜神经元来说,使用高斯白噪声棋盘格刺激,可以通过STA的方法得到被记录的神经元的感受野。在已知真实感受野的情况下,只需比对推断的感受野和真实的感受野的椭圆位置、形状、大小和方向是否重合就可以了。也可以计算真实感受野与推断的感受野之间的点积,数值越大重合度越好。
可是对于子单元的推断,由于实验技术的限制,难以得知真实突触前双极细胞的感受野信息。由于已知双极细胞直径的统计分布,可通过真实直径和推断直径在统计上是否相似来判断。此外,还要验证推断的所有感受野,是否能很好地平铺区域。当然这种未知感受野而通过直径的统计分布来衡量的方法并不是很准确。而基于脉冲激发非负矩阵分解的方法,通过分析权重矩阵,记录的神经元的脉冲分类到子单元所属的脉冲子集。通过相关性分析就可以定量地衡量推断的子单元与真实双极细胞之间是否为同一个。从而为感受野的评估提供一种定量评估手段。
6. 总结与展望
解释视觉感知甚至认知如何从神经生物学上合理的动态组件中产生的计算模型是计算神经科学的核心。本文追溯了视觉系统的神经编码模型令人兴奋的最新发展:生物物理编码模型和人工神经网络编码模型,总结了模型预测质量以及系统的量化方法,可以帮助我们从大脑活动数据中收集对计算的见解,但依然存在很大的挑战。传统的生物物理模型的性能极大地依赖于视觉刺激的选取,对人造的简单刺激编码性能很好,但是难以适用于复杂的自然场景刺激[61]。最近的几项研究已经开始使用人工神经网络模型作为大脑信息处理的模型。这些研究预测了灵长类腹侧视觉流中新图像的大脑表征,其深度神经网络模型经过训练以预测神经信号或者识别物体。结果表明,深度卷积神经网络的内部表征为人类和猴子下颞叶皮层中的视觉图像表示提供了当前最好的模型。在比较大量模型时,那些经过优化以执行对象分类任务的模型可以更好地解释皮层表示。在神经信号编码的准确度方面,基于人工神经网络深度学习的方法远远超过生物物理模型。但从系统辨识推断视觉系统神经网络内潜层计算组件方面,脉冲激发非负矩阵分解的方法更高一筹。虽然基于CNN和CRNN在视网膜上的建模有一定的系统辨识能力,主要体现在模拟数据中对子单元的时空感受野的推断,但在真实数据中的表现还有待进一步研究。
综上所述,目前视觉编码模型研究尚存在很多问题。生物物理模型多适用于人工刺激,而利用神经网络进行建模也只停留于宏观上借鉴视觉系统的层次结构的程度,难以解释学习后网络结构组件并难以生成与真实大脑一致脉冲信号。随着神经科学和相关生物实验设备的发展,各种尺度的多模态神经数据被记录,从而面向多模态神经数据的编码模型与动态自然场景的编码模型称为研究重点。面临的主要挑战有:如何实现计算功能趋同的视觉神经编码;如何针对多模态神经数据实现动态编码;如何在有限生理数据下实现大规模脉冲神经网络的参数和结构学习。未来可以在宏观上模拟每个视觉脑区的连接结构,在微观上用脉冲神经网络来学习和模拟视觉神经通路的输入输出映射关系,从计算角度建立视觉编码模型,例如结合深度学习强大的学习能力与非负矩阵分解强大的系统辨识能力[62,63],实现既有优秀编码能力又能准确估计潜在网络计算组件以及动态的突触连接强度的新方法。此外随着使用无监督学习为多脑区皮层提供定量模型,这为灵长类感觉学习的生物学合理计算理论提供了强有力的候选者。而卷积神经网络-脉冲神经网络联合模型为处理多模态数据提供了新思路[64]。当然,随着科学进步新问题也会出现,还有很多令人兴奋且具有挑战性的工作,需要神经科学、计算机科学、认知科学和人工智能之间持续丰富的互动。
-
[1] COLLINGER J L, WODLINGER B, DOWNEY J E, et al. High-performance neuroprosthetic control by an individual with tetraplegia[J]. The Lancet, 2013, 381(9866): 557–564. doi: 10.1016/S0140-6736(12)61816-9 [2] SHANECHI M M, ORSBORN A L, MOORMAN H G, et al. Rapid control and feedback rates enhance neuroprosthetic control[J]. Nature Communications, 2017, 8: 13825. doi: 10.1038/ncomms13825 [3] SEEBER B U and BRUCE I C. The history and future of neural modeling for cochlear implants[J]. Network: Computation in Neural Systems, 2016, 27(2/3): 53–66. doi: 10.1080/0954898X.2016.1223365 [4] JOHNSON L A, DELLA SANTINA C C, and WANG Xiaoqin. Representations of time-varying cochlear implant stimulation in auditory cortex of awake marmosets (Callithrix jacchus)[J]. Journal of Neuroscience, 2017, 37(29): 7008–7022. doi: 10.1523/JNEUROSCI.0093-17.2017 [5] GHEZZI D. Retinal prostheses: Progress toward the next generation implants[J]. Frontiers in Neuroscience, 2015, 9: 290. doi: 10.3389/fnins.2015.00290 [6] TANG Jing, QIN Nan, CHONG Yan, et al. Nanowire arrays restore vision in blind mice[J]. Nature Communications, 2018, 9(1): 786. doi: 10.1038/s41467-018-03212-0 [7] HUANG Tiejun, ZHENG Yajing, YU Zhaofei, et al. 1000× faster camera and machine vision with ordinary devices[J]. Engineering, To be published. [8] ZHU Lin, DONG Siwei, LI Jianing, et al. Retina-like visual image reconstruction via spiking neural model[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 1438–1446. [9] ZHENG Yajing, ZHENG Lingxiao, YU Zhaofei, et al. High-speed image reconstruction through short-term plasticity for spiking cameras[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 6354–6363. [10] ZHAO Jing, XIONG Ruiqin, XIE Jiyu, et al. Reconstructing clear image for high-speed motion scene with a retina-inspired spike camera[J]. IEEE Transactions on Computational Imaging, 2022, 8: 12–27. doi: 10.1109/TCI.2021.3136446 [11] ZHAO Junwei, YU Zhaofei, MA Lei, et al. Modeling the detection capability of high-speed spiking cameras[C]. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Singapore, 2022: 4653–4657. [12] DING Ziluo, ZHAO Rui, ZHANG Jiyuan, et al. Spatio-temporal recurrent networks for event-based optical flow estimation[C]. The 36th AAAI Conference on Artificial Intelligence, Palo Alto, USA, 2022: 525–533. [13] HU Liwen, ZHAO Rui, DING Ziluo, et al. Optical flow estimation for spiking camera[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, 2022: 17844–17853. [14] LINDEN J F, LIU R C, SAHANI M, et al. Spectrotemporal structure of receptive fields in areas AI and AAF of mouse auditory cortex[J]. Journal of Neurophysiology, 2003, 90(4): 2660–2675. doi: 10.1152/jn.00751.2002 [15] MACHENS C K, WEHR M S, and ZADOR A M. Linearity of cortical receptive fields measured with natural sounds[J]. Journal of Neuroscience, 2004, 24(5): 1089–1100. doi: 10.1523/JNEUROSCI.4445-03.2004 [16] SAHANI M and LINDEN J F. How linear are auditory cortical responses?[C]. The 15th International Conference on Neural Information Processing Systems, Vancouver, Canada, 2002: 125–132. [17] SHARPEE T, RUST N C, and BIALEK W. Analyzing neural responses to natural signals: Maximally informative dimensions[J]. Neural Computation, 2004, 16(2): 223–250. doi: 10.1162/089976604322742010 [18] CHICHILNISKY E J. A simple white noise analysis of neuronal light responses[J]. Network, 2001, 12(2): 199–213. doi: 10.1080/713663221 [19] PANINSKI L. Maximum likelihood estimation of cascade point-process neural encoding models[J]. Network: Computation in Neural Systems, 2004, 15(4): 243–262. doi: 10.1088/0954-898X_15_4_002 [20] RABINOWITZ N C, WILLMORE B D B, SCHNUPP J W H, et al. Contrast gain control in auditory cortex[J]. Neuron, 2011, 70(6): 1178–1191. doi: 10.1016/j.neuron.2011.04.030 [21] VINJE W E and GALLANT J L. Natural stimulation of the nonclassical receptive field increases information transmission efficiency in V1[J]. Journal of Neuroscience, 2002, 22(7): 2904–2915. doi: 10.1523/JNEUROSCI.22-07-02904.2002 [22] LIU J K, SCHREYER H M, ONKEN A, et al. Inference of neuronal functional circuitry with spike-triggered non-negative matrix factorization[J]. Nature Communications, 2017, 8(1): 149. doi: 10.1038/s41467-017-00156-9 [23] SHAH N P, BRACKBILL N, RHOADES C, et al. Inference of nonlinear receptive field subunits with spike-triggered clustering[J]. eLife, 2020, 9: e45743. doi: 10.7554/eLife.45743 [24] KARAMANLIS D and GOLLISCH T. Nonlinear spatial integration underlies the diversity of retinal ganglion cell responses to natural images[J]. Journal of Neuroscience, 2021, 41(15): 3479–3498. doi: 10.1523/JNEUROSCI.3075-20.2021 [25] LIU J K, KARAMANLIS D, and GOLLISCH T. Simple model for encoding natural images by retinal ganglion cells with nonlinear spatial integration[J]. PLoS Computational Biology, 2022, 18(3): e1009925. doi: 10.1371/journal.pcbi.1009925 [26] MCFARLAND J M, CUI Yuwei, and BUTTS D A. Inferring nonlinear neuronal computation based on physiologically plausible inputs[J]. PLoS Computational Biology, 2013, 9(7): e1003143. doi: 10.1371/journal.pcbi.1003143 [27] DORRN A L, YUAN Kexin, BARKER A J, et al. Developmental sensory experience balances cortical excitation and inhibition[J]. Nature, 2010, 465(7300): 932–936. doi: 10.1038/nature09119 [28] MARMARELIS V. Analysis of Physiological Systems: The White-Noise Approach[M]. Springer, 2012. [29] PARK I M, ARCHER E, PRIEBE N, et al. Spectral methods for neural characterization using generalized quadratic models[C]. The 26th International Conference on Neural Information Processing Systems, Lake Tahoe USA, 2013: 2454–2462. [30] PARK I M and PILLOW J W. Bayesian spike-triggered covariance analysis[C]. The 24th International Conference on Neural Information Processing Systems, Granada, Spain, 2011: 1692–1700. [31] JIA Shanshan, XING Dajun, YU Zhaofei, et al. Dissecting cascade computational components in spiking neural networks[J]. PLoS Computational Biology, 2021, 17(11): e1009640. doi: 10.1371/journal.pcbi.1009640 [32] LECUN Y, BENGIO Y, and HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. doi: 10.1038/nature14539 [33] YAMINS D L K, HONG Ha, CADIEU C F, et al. Performance-optimized hierarchical models predict neural responses in higher visual cortex[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014, 111(23): 8619–8624. doi: 10.1073/pnas.1403112111 [34] KHALIGH-RAZAVI S M and KRIEGESKORTE N. Deep supervised, but not unsupervised, models may explain IT cortical representation[J]. PLoS Computational Biology, 2014, 10(11): e1003915. doi: 10.1371/journal.pcbi.1003915 [35] KRIEGESKORTE N. Deep neural networks: A new framework for modeling biological vision and brain information processing[J]. Annual Review of Vision Science, 2015, 1: 417–446. doi: 10.1146/annurev-vision-082114-035447 [36] YAMINS D L K and DICARLO J J. Using goal-driven deep learning models to understand sensory cortex[J]. Nature Neuroscience, 2016, 19(3): 356–365. doi: 10.1038/nn.4244 [37] ROWEKAMP R J and SHARPEE T O. Cross-orientation suppression in visual area V2[J]. Nature Communications, 2017, 8: 15739. doi: 10.1038/ncomms15739 [38] CADENA S A, DENFIELD G H, WALKER E Y, et al. Deep convolutional models improve predictions of macaque V1 responses to natural images[J]. PLoS Computational Biology, 2019, 15(4): e1006897. doi: 10.1371/journal.pcbi.1006897 [39] YAN Qi, ZHENG Yajing, JIA Shanshan, et al. Revealing fine structures of the retinal receptive field by deep-learning networks[J]. IEEE Transactions on Cybernetics, 2022, 52(1): 39–50. doi: 10.1109/TCYB.2020.2972983 [40] VANCE P J, DAS G P, KERR D, et al. Bioinspired approach to modeling retinal ganglion cells using system identification techniques[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(5): 1796–1808. doi: 10.1109/TNNLS.2017.2690139 [41] MCINTOSH L T, MAHESWARANATHAN N, NAYEBI A, et al. Deep learning models of the retinal response to natural scenes[C]. The 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016: 1369–1377. [42] KAR K, KUBILIUS J, SCHMIDT K, et al. Evidence that recurrent circuits are critical to the ventral stream’ s execution of core object recognition behavior[J]. Nature Neuroscience, 2019, 22(6): 974–983. doi: 10.1038/s41593-019-0392-5 [43] KIETZMANN T C, SPOERER C J, SÖRENSEN L K A, et al. Recurrence is required to capture the representational dynamics of the human visual system[J]. Proceedings of the National Academy of Sciences of the United States of America, 2019, 116(43): 21854–21863. doi: 10.1073/pnas.1905544116 [44] RAJAEI K, MOHSENZADEH Y, EBRAHIMPOUR R, et al. Beyond core object recognition: Recurrent processes account for object recognition under occlusion[J]. PLoS Computational Biology, 2019, 15(5): e1007001. doi: 10.1371/journal.pcbi.1007001 [45] LINSLEY D, KIM J, VEERABADRAN V, et al. Learning long-range spatial dependencies with horizontal gated recurrent units[C]. The 32nd International Conference on Neural Information Processing Systems, Montréal, Canada, 2018: 152–164. [46] O’BRIEN J and BLOOMFIELD S A. Plasticity of retinal gap junctions: Roles in synaptic physiology and disease[J]. Annual Review of Vision Science, 2018, 4: 79–100. doi: 10.1146/annurev-vision-091517-034133 [47] RIVLIN-ETZION M, GRIMES W N, and RIEKE F. Flexible neural hardware supports dynamic computations in retina[J]. Trends in Neurosciences, 2018, 41(4): 224–237. doi: 10.1016/j.tins.2018.01.009 [48] TRENHOLM S, SCHWAB D J, BALASUBRAMANIAN V, et al. Lag normalization in an electrically coupled neural network[J]. Nature Neuroscience, 2013, 16(2): 154–156. doi: 10.1038/nn.3308 [49] YU Zhaofei, LIU J K, JIA Shanshan, et al. Toward the next generation of retinal neuroprosthesis: Visual computation with spikes[J]. Engineering, 2020, 6(4): 449–461. doi: 10.1016/j.eng.2020.02.004 [50] ZHENG Yajing, JIA Shanshan, YU Zhaofei, et al. Unraveling neural coding of dynamic natural visual scenes via convolutional recurrent neural networks[J]. Patterns, 2021, 2(10): 100350. doi: 10.1016/j.patter.2021.100350 [51] PANINSKI L. Convergence properties of some spike-triggered analysis techniques[C]. The 15th International Conference on Neural Information Processing Systems, Vancouver, British Columbia, Canada, 2002: 189–196. [52] JIA Shanshan, YU Zhaofei, ONKEN A, et al. Neural system identification with spike-triggered non-negative matrix factorization[J]. IEEE Transactions on Cybernetics, 2022, 52(6): 4772–4783. doi: 10.1109/TCYB.2020.3042513 [53] ONKEN A, LIU J K, KARUNASEKARA P P C R, et al. Using matrix and tensor factorizations for the single-trial analysis of population spike trains[J]. PLoS Computational Biology, 2016, 12(11): e1005189. doi: 10.1371/journal.pcbi.1005189 [54] WILLIAMS A H, KIM T H, WANG F, et al. Unsupervised discovery of demixed, low-dimensional neural dynamics across multiple timescales through tensor component analysis[J]. Neuron, 2018, 98(6): 1099–1115.e8. doi: 10.1016/j.neuron.2018.05.015 [55] ZHUANG Chengxu, YAN Siming, NAYEBI A, et al. Unsupervised neural network models of the ventral visual stream[J]. Proceedings of the National Academy of Sciences of the United States of America, 2021, 118(3): e2014196118. doi: 10.1073/pnas.2014196118 [56] BRENNER N, STRONG S P, KOBERLE R, et al. Synergy in a neural code[J]. Neural Computation, 2000, 12(7): 1531–1552. doi: 10.1162/089976600300015259 [57] SHARPEE T O, MILLER K D, and STRYKER M P. On the importance of static nonlinearity in estimating spatiotemporal neural filters with natural stimuli[J]. Journal of Neurophysiology, 2008, 99(5): 2496–2509. doi: 10.1152/jn.01397.2007 [58] MEYER A F, DIEPENBROCK J P, HAPPEL M F K, et al. Discriminative learning of receptive fields from responses to non-Gaussian stimulus ensembles[J]. PLoS One, 2014, 9(4): e93062. doi: 10.1371/journal.pone.0093062 [59] MEYER A F, DIEPENBROCK J P, OHL F W, et al. Quantifying neural coding noise in linear threshold models[C]. The 6th International IEEE/EMBS Conference on Neural Engineering, San Diego, USA, 2013: 1127–1130. [60] ZAPP S J, NITSCHE S, and GOLLISCH T. Retinal receptive-field substructure: Scaffolding for coding and computation[J]. Trends in Neurosciences, 2022, 45(6): 430–445. doi: 10.1016/J.TINS.2022.03.005 [61] KARAMANLIS D, SCHREYER H M, and GOLLISCH T. Retinal encoding of natural scenes[J]. Annual Review of Vision Science, 2022, 8: 171–193. doi: 10.1146/annurev-vision-100820-114239 [62] SALAHIAN N, TAB F A, SEYEDI S A, et al. Deep autoencoder-like NMF with contrastive regularization and feature relationship preservation[J]. Expert Systems with Applications, 2023, 214: 119051. doi: 10.1016/J.ESWA.2022.119051 [63] CHEN Wensheng, ZENG Qianwen, and PAN Binbin. A survey of deep nonnegative matrix factorization[J]. Neurocomputing, 2022, 491: 305–320. doi: 10.1016/j.neucom.2021.08.152 [64] XU Qi, LI Yaxin, SHEN Jiangrong, et al. Hierarchical spiking-based model for efficient image classification with enhanced feature extraction and encoding[J]. IEEE Transactions on Neural Networks and Learning Systems, To be published. -