近日,上海交通大学电子信息与电气工程学院计算机科学与工程系郑伟龙团队在类脑智能领域取得重要进展,相关研究成果以“Rapid context inference in a thalamocortical model using recurrent neural networks”(基于递归神经网络的丘脑皮层模型中的快速情境推断)为题在国际著名期刊《Nature Communications》上发表。
研究背景
情境是一个抽象的目标、记忆和外部线索的集合,这些信息有助于产生适当的行为反应。人类和动物基于变化的情境信息表现出灵活的决策能力。这种灵活性体现在能够生成情境依赖的学习行为,并快速、灵活地适应新情境,而不覆盖先前的学习。为了实现这些目标,情境推断是支撑认知灵活性许多方面的基本过程。来自人类和动物研究的实验证据强调了情境推断的重要性。研究表明,情境推断障碍与认知灵活性降低与多种心理障碍疾病(如精神分裂症)相关联。
情境推断背后的神经机制仍然在研究中,例如其相关神经生理机制和计算理论。已有研究表明,前额皮层(PFC)在认知灵活性中发挥着关键作用。PFC接收来自其他脑区(包括皮层、丘脑和杏仁核)的多种输入,同时也输出到这些脑区。在这些脑区中,内侧背丘脑(MD)最近受到特别关注,因为它与PFC之间有着密集的投射关系。近期研究表明,MD调节PFC神经元动态及其有效连接,以支持适应性行为。具体而言,MD神经元增强局部皮层的连接性,并维持PFC中的规则表示。MD编码情境信息(刺激呈现的统计规律),并调节PFC神经元反应。通过这种方式,MD维持与情境相关的PFC表征,同时抑制与情境无关的表征。小鼠行为表现的实验结果表明,情境推断可以在仅仅几次试验内迅速发生。除了在情境推断中的作用外,MD还与一系列其他认知功能有关。这些发现强调了丘脑皮层相互作用在推断时间情境中的关键作用,这是认知灵活性的一个重要组成部分。
近年来,递归神经网络(RNN)被广泛用于前额皮层(PFC)动态的计算建模。尽管神经网络在各种认知任务中表现良好,但当任务按顺序学习时,它们通常会遭遇严重的性能下降,称为灾难性遗忘。在这种情况下,整个神经网络在学习新任务时需要重新训练,而不保护对过去任务的先前学习知识。持续学习或终身学习在动态环境中对人类学习至关重要,使模型能够同时解决不同的任务而不发生干扰。学术界提出了许多持续学习方法,主要分为三种策略:基于重放的方法、基于正则化的方法和基于架构的方法。然而,大多数持续学习方法在训练过程中需要明确的任务标签。例如,提供任务标签的独热编码向量作为模型的输入。在执行任务时,如何快速而准确地从神经表征中推断出任务标签或时间情境信息尚不清楚。在本研究中,研究团队展示了将丘脑皮层神经环路的生物特性融入神经网络,可以帮助网络在仅仅几次试验内持续推断时间情境信息,并在动态变化的环境中实现持续学习。
为了开发快速的在线情境推断计算模型,研究团队在本研究中提出了新颖的双系统递归神经网络模型,包含MD丘脑模块和PFC模块。模型采用基于赫布学习的突触可塑性,以无监督的方式在PFC和MD之间进行,使MD模块能够通过整合试验中的情境相关活动来推断时间情境。MD投射对PFC的任务表征进行调控,以避免不同任务表征之间的干扰。研究团队训练网络实现情境依赖决策任务,这与动物实验小鼠接受的注意力引导行为任务相似。PFC-MD神经网络结果与小鼠的PFC和MD的神经记录一致。研究团队发现,PFC-MD网络在灵活切换时间情境任务方面优于仅有PFC的模型。研究团队还评估了模型在更一般的认知任务上的性能,并将模型性能与现有的生物学上合理的持续学习方法进行了比较。实验结果表明,PFC-MD神经网络在持续学习和知识迁移方面具有计算优势。
研究亮点
认知灵活性是一种使人类和动物能够在各种情境中表现出适当行为的基本能力。前额皮层(PFC)与内侧背丘脑(MD)之间的丘脑皮层相互作用被认为对推断时间情境至关重要。快速情境推断是认知灵活性的重要组成部分。然而,负责情境推断的相关神经机制仍不清楚。为了解决这一问题,研究团队提出了一个利用赫布可塑性规则的PFC-MD神经网络模型,以支持快速的在线情境推断。具体而言,模型中的MD丘脑能够在较少次试验中从前额叶皮层输入推断时间情境信息。这个主要是利用本研究设计的具有pre-synaptic trace和自适应阈值的前额皮层到丘脑突触可塑性规则,以及丘脑winner-take-all归一化来实现的。此外,丘脑模块能够调控前额皮层中与情境无关的神经元活动,从而促进持续学习。研究团队通过让模型顺序学习各种认知任务来评估其性能。实验结果表明,引入类似丘脑神经模块减轻了对先前任务的灾难性遗忘,并展示了向未来任务学习的知识迁移能力。研究团队的研究利用了丘脑皮层神经环路的神经网络特性来实现快速情境推断和持续学习。
研究内容
图1 具有突触可塑性的PFC-MD模型框架
研究团队设计了具有赫布学习规则的皮层-丘脑神经网络模型,在PFC至MD的连接中推断时间情境,并在PFC中实现MD门控。传统的人工神经网络针对单一情境或任务进行优化,容易遭遇灾难性遗忘。在新情境或任务中,旧情境或任务中学习到的关键模型参数被改变。研究团队提出了具有pre-synaptic and post-synaptic trances、自适应阈值和winner-take-all机制的突触可塑性规则,以使神经网络能够推断时间情境并实现持续学习。
图2 PFC-MD神经网络模型中对时间情境的选择性编码
研究团队提出的模型与Rikhye及其同事的实验结果一致。分类结果显示,PFC中可以解码到规则和情境信息,而MD中只能解码到情境信息。研究团队提出的PFC与MD之间的可塑性规则选择性地使MD能够从PFC获取情境信息。该可塑性规则支持快速的在线情境推断。另外,MD在各种噪声条件下的情境解码表现优于PFC。
图3 在更复杂的认知任务上实现快速MD情境推断
研究团队研究了PFC-MD模型在需要动态处理输入和在递归网络中学习的更复杂任务中的鲁棒性,例如各种认知功能,包括工作记忆、决策、分类和抑制控制等任务。为了使模型能够泛化到更加复杂的认知任务,研究团队通过添加一个新的PFC-ctx模块,提出了新的丘脑皮层相互作用方式,将任务学习和情境推断分为两个路径。通过整合试验中PFC-ctx的神经活动,MD能够选择性地编码时间情境。情境编码的模型结果显示了PFC-ctx与MD之间显著的性能差距,这与小鼠实验数据中PFC快速放电神经元和MD神经元之间的性能差距一致。
图4 MD模块支持PFC中的持续学习
除了推断时间情境,MD对PFC有两种不同的效应:乘法效应和加法效应,分别是特定于情境的神经连接增强和神经活动抑制。通过引入MD模块,不同情境/任务之间的神经表征变得不相交,从而促进PFC内的有效群体编码,实现持续学习。PFC-MD模型的表现优于其他持续学习模型,主要得益于MD介导的抑制。PFC-MD模型对学习的情境知识具有权重保护机制。
图 5 PFC-MD模型的正向迁移与任务相似性测量
人类和动物的大脑不仅仅是避免遗忘,还表现出在从先前学习的任务中转移知识的高度灵活性,这一现象称为正向迁移。具体而言,正向迁移指的是先前学习的任务能够提升相关未来任务的表现和学习效率。为了使PFC-MD模型具备正向迁移的能力,模型允许不同认知任务共享一部分PFC神经元。除了抑制与任务无关的PFC神经元外,任务选择性MD神经元还维持了一些在不同任务中共同的PFC神经元活动。MD至PFC的投射可以根据任务相似性进行调整。因此,对应于MD至PFC效应的不相交或重叠,PFC中的任务表征可以是完全模块化的或部分模块化的。实验结果表明,具有重叠效应的PFC-MD模型在持续学习和正向迁移方面表现出对更相似任务的性能提升。
研究团队
上海交通大学电子信息与电气工程学院计算机科学与工程系仿脑计算与机器智能研究中心郑伟龙副教授为该论文的唯一第一作者和共同通讯作者,上海交通大学为该论文的第一单位和共同通讯单位。论文合作者还包括德克萨斯大学奥斯汀分校Zhongxuan Wu、麻省理工学院的Ali Hummos和Guangyu Robert Yang,以及塔夫茨大学医学院的Michael M. Halassa。该工作得到了国家自然科学基金、科技创新2030重大项目和上海浦江人才计划等项目的资助。
郑伟龙,上海交通大学计算机科学与工程系长聘教轨副教授,博士生导师。入选国家级高层次海外青年人才和上海市海外高层次青年人才。他于2018年在上海交通大学计算机科学与工程系获得博士学位,之后在哈佛大学医学院麻省总医院和麻省理工学院从事博士后研究,长期从事脑认知与智能、情感计算、脑机交互、类脑计算理论与模型等方面研究。在国际高水平会议和期刊发表研究论文100余篇,多篇论文入选ESI高被引论文。荣获IEEE Transactions on Autonomous Mental Development最佳论文奖、IEEE Transactions on Affective Computing最佳论文奖、ACM Multimedia Top Paper Award、中国人工智能学会优秀博士学位论文奖以及吴文俊人工智能自然科学一等奖,入选上海市浦江人才项目、小米青年学者、微软亚洲研究院铸星计划、AI华人青年学者榜单、2023全球前2%科学家年度影响力榜单。目前担任IEEE Transactions on Affective Computing编委。
文章来源:上海交通大学