一简介
处理器芯片全国重点实验室为提高实验室的开放层次,提高学术水平和技术水平,增进国内外学术交流与合作,促进人才流动与学科交叉渗透,按照相关规定特设开放研究课题。欢迎国内外相关领域的科研工作者参与实验室的开放课题研究。
二指南的制定原则
1、根据我国处理器芯片领域的发展战略,着眼于国民经济建设的当前和长远的需要和国际学科发展的前沿;
2、鼓励具有开拓性、前瞻性、创造性和高层次理论和技术的自主创新研究及具有重大应用前景的项目;
3、利于促进多学科的交叉渗透和多部门的联合攻关,有利于建立和发展国际合作的新格局,有利于人才培养和学科的发展;
4、鼓励和支持具备博士学位、高级职称的国内外科技工作者申请;
5、资助项目的申请者要求与本实验室科研人员协同工作。
6、项目资助5万/项,资助周期一般不超过2年。
三建议开放课题的研究方向
本年度建议开展课题如下(可不限于以下课题):
题目1:面向数据库应用的RISC-V架构数据硬件预取技术
研究内容: 基于RISC-V指令集架构,研究数据库应用中的非规则数据访问模式,以及对这类复杂访存模式的在线检测识别技术;研究针对典型数据库应用中数据访问模式的硬件预取技术;研究设计硬件预取电路并实现与现有开源RISC-V处理器架构的集成;突破RISC-V处理器在链表遍历、哈希归并等典型数据库操作中的性能瓶颈,显著提升访存效率。
题目2:基于忆阻器的存算一体集成芯片可靠性关键技术研究
研究内容: 基于忆阻器的集成芯片通过融合存算一体新型计算架构与芯粒(Chiplet)设计模式,展现出高能效、低成本以及高可扩展的优势,成为突破算力瓶颈的关键技术。然而,忆阻器作为一种新兴的非易失性存储器,其非理想特性对芯粒的可靠性构成了严峻挑战。此外,在集成芯片的设计中,芯粒间高密度的互连引入了复杂的互连故障风险。随着集成度的提升和功能的复杂化,集成芯片的测试工作也变得异常复杂和高昂。因此,本研究旨在探索基于忆阻器的存算一体集成芯片的可靠性关键技术,为其在实际应用中的稳定性和可靠性提供理论和技术支持,推动其在高性能计算、人工智能等领域的应用和发展。重点的研究内容包括:
(1)高可靠性保障的基于忆阻器的存算一体集成芯片架构设计。
(2)基于忆阻器的集成芯片的测试方法,包括但不限于器件级别的电气特性测试以及系统级别的功能验证。
(3)设计并实现高效的容错机制,以提升基于忆阻器的存算一体集成芯片的可靠性和稳定性。
题目3:深度神经网络结构化剪枝与高效并行方法研究
研究内容: 剪枝是增强深度神经网络稀疏度、压缩深度神经网络模型的有效手段,包括非结构化剪枝与结构化剪枝。结构化剪枝能够有效减少计算量,且剪枝后的模型比非结构化剪枝能更方便有效地降低硬件资源需求。本课题拟研究内容包括:
(1)对卷积神经网络和基于Transformer的神经网络进行结构化剪枝,提高神经网络的稀疏度。针对卷积神经网络,提出通道级的剪枝方法,根据各个通道的重要性去除其中不重要的通道,降低参数量。针对基于Transformer的神经网络,提出动态的token剪枝方法,根据每个token的重要性减少序列长度,只保留最具信息的token,降低硬件资源需求的同时可最大限度地保证精度。
(2)由于深度学习算法具有较高的稀疏度,可采用稀疏格式存储数据以减少计算量,这使得在多核/众核结构上并行计算时,线程之间的任务分配更为复杂,难以达到不同线程之间的计算负载均衡。通过分析深度学习算法的并行性,将其划分为不同的并行粒度,结合算法稀疏特征以选取最佳并行策略,使算法并行度与众核硬件计算能力达到最佳匹配,不同线程之间的计算量达到负载均衡,充分利用计算资源获得最好的计算性能。
题目4:基于算法稀疏性和众核结构特征的卷积神经网络加速方法研究
研究内容: 目前的研究工作很少同时考虑深度学习算法的稀疏性和众核硬件结构特征,导致稀疏算法在众核平台上的加速效果较差。例如在卷积神经网络中通常联合使用卷积操作与池化操作,而现有的稀疏计算方法在利用GPU加速时,将卷积操作和池化操作分开进行。这不仅增加了GPU访问片外存储器的开销,而且可能增加CPU与GPU之间的通信开销。研究内容包括:
(1)卷积神经网络中计算量最大的部分是卷积层,通过加速卷积层可实现对整个模型性能的有效提升。卷积层中的特征图具有一定稀疏性,剪枝和激活函数的应用导致更多零值的产生。利用特征图的稀疏性来提高卷积层的性能,将特征图直接转换为压缩格式的稀疏矩阵,以减少对非零值的运算和存储空间消耗,然后将卷积核转换为向量,最终通过稀疏矩阵向量乘法获得卷积结果。
(2)通过设计一种新的数据稀疏存储格式,将卷积与池化融合在一起,减少片外访存开销,同时对特征图进行压缩,减少非零值计算,实现对卷积和池化的整体加速效果。此外,针对深度学习算法数据访问的时间局部性和众核体系结构特征,通过线程内部的数据重用和线程之间的数据共享减少片外存储的访问次数。
题目5:面向大尺度材料计算的第一性原理求解加速微结构研究
研究内容: 大尺度材料计算中第一性原理的高性能求解一直是困扰学术界的难题。电子结构量化模拟计算的精度和尺度仍无法取得平衡。密度泛函理论是求解第一性原理的有效手段,这一方法能有效提升电子结构模拟尺度,但量子计算的精度仍有待提高。本课题期望针对密度泛函理论开展专用的加速微结构研究:
(1)研究交换关联泛函优化方案,在不同密度泛函层级研究密度线性代数归一化,在降低计算复杂度的同时,提升计算尺度和精度;
(2)研究微处理器指令集扩展方案,缩短加速计算芯片的研发周期;3)研究核间及片间计算并行优化机制,将材料量化计算对高吞吐和高性能的需求尽可能地通过并行挖掘发挥到极致。
题目6:基于GPU的键值数据隐私信息检索技术研究
研究内容: 隐私信息检索(Private Information Retrieval, PIR),作为一种不泄露查 询条件和查询结果的加密技术,是保护云计算环境下用户隐私和数据安全的重要途途径之一。同态加密方案因其无额外信任假设、数据可用、数据可控、数据不可见等特点,是构造PIR方案的潜在技术之一。然而,基于同态加密的PIR方案存在两个显著的瓶颈:(1)显著的计算开销——密文计算的复杂度比明文计算高出了3~4个数量级。(2)等长约束——为了防止服务器通过密文形状推断出用户的查询兴趣,PIR协议要求服务器将数据集看作一个规则的数组。为此,本项目拟研究面向键值数据的隐私信息检索设计与实现,旨在打破上述存在的两个关键问题,提升PIR的执行效率。具体内容主要包括两个方面:
(1)研究适用于真实应用场景的私有信息检索(PIR)协议,考虑数据集的存储布局和合适的同态加密方案,实现PIR计算过程的协同设计与优化。
(2)探索针对GPU集群的PIR协议加速方法,包括同态运算硬件加速的实现、负载平衡及并行度与通信成本的优化,以提高PIR方案在硬件上的性能表现。
题目7:以数据为中心的新型操作系统架构
研究内容: 在大量数据密集型应用(如数据库系统、机器学习系统)中,数据的移动成为系统性能的关键瓶颈。然而,传统操作系统设计以线程-进程为核心,主要关注计算和设备资源(如CPU、内存、I/O)的管理,未能充分考虑数据的核心地位和其特殊需求。本课题旨在设计一款新的操作系统,以解决数据密集型应用的核心诉求与传统操作系统不匹配的问题。具体研究研究内容包括:
(1)数据密集型应用在现有操作系上的性能瓶颈定量分析。
(2)提出以数据为中心的新型系统架构,将数据作为关键资源进行管理和调度。
(3)提出新的数据处理的方式,提高系统的整体性能,改善系统的资源利用率。
题目8:大模型驱动的开源EDA软件自动化并行加速方法
研究内容: 开源EDA软件的研究工作普遍集中在算法的迭代优化方面,整体实现仍然缺乏系统的并行优化,在应用于大型芯片设计时面临严重的性能问题,制约了开源EDA软件的应用和推广。大语言模型表现出强大的代码理解和代码生成能力,也可以有效地应用于自动化的并行代码生成,具备解决EDA软件并行的巨大潜力。为此,本项目面向开源EDA软件,针对EDA工具的典型执行流程,探索基于大模型的自动化并行加速方法,提升开源EDA软件的运行效率。本项目的研究内容将重点围绕以下三个方面展开:
(1)结合并行计算经验知识与EDA软件的典型执行流程,构建一套高效的混合粒度并行计算策略,覆盖任务级、线程级以及指令级并行加速,形成基于思维链的并行代码生成框架。
(2)利用大模型的代码理解能力,分解复杂的EDA软件,适配现有的任务级并行计算框架,挖掘任务间并行和任务内流水并行。针对不同的代码模式,进一步通过检索增强并行代码的生成质量。
(3)利用大语言模型的代码理解能力,识别EDA软件中的典型计算模式,结合算子库进行向量化改造,构建基于处理向量加速协处理器的自动化并行优化方法。
题目9:硬件感知的大模型压缩方法
研究内容: 本课题旨在设计和实现一种硬件感知的大模型压缩方法,将目标硬件的性能指标和限制(如内存带宽、计算能力、缓存大小等)融入压缩过程中,确保经过压缩后的模型在目标硬件上高效运行。具体包括:深入分析大模型在推理过程中的内存访问代价和计算代价,识别并量化影响模型性能的关键因素;在模型剪枝和量化等方面进行探索,构建能够反映硬件特性的剪枝和量化等指标,以在模型推理性能和计算资源之间取得最佳平衡;设计快速有效的压缩求解算法,以应对模型结构复杂性和硬件配置多样性带来的大规模优化搜索空间问题;对至少一个开源的大型语言模型进行压缩实验,在给定的目标硬件上实现压缩性能超越当前最优算法20%以上。
题目10:基于超导单磁通量子电路的国密算法SM4处理器研究
研究内容: SM4算法是中国国家密码管理局发布的商用密码标准之一,被广泛应用于国内信息安全领域。它是保障国家信息安全战略的重要技术基础,确保国防、金融、电信、电子政务等关键领域的数据传输和存储安全。然而,随着数据量的激增,传统的加密硬件在速度和功耗方面难以满足日益增长的需求。超导单磁通量子(SFQ)电路作为超导电子学的重要分支,以其高速度和低功耗的特性备受瞩目。因此,设计基于SFQ电路的SM4处理器,不仅能够提高加密运算速度,还能显著降低功耗,对推动信息安全技术的发展具有重要意义。
目前,国密算法SM4的硬件加速主要依赖于CMOS技术。然而,CMOS技术在速度和功耗方面存在瓶颈。近年来,SFQ技术逐渐成为研究热点,已在一些加密算法和高速计算领域展现出巨大潜力。鉴于基于SFQ技术的加密电路研究尚处于起步阶段,国内外相关研究较少,因此,设计针对SM4算法的SFQ处理器具有重要的创新价值。本课题拟进行以下五个方面的研究:SFQ电路基础研究、SM4算法分析、SFQ SM4处理器设计、仿真与验证以及优化。
首先,我们需要深入掌握SFQ电路的基本原理和设计方法,以及SFQ电路的仿真工具和优化技术。其次,我们将分析SM4算法的结构和运算特点,进而提出适合SFQ电路实现的SM4算法优化方案。接下来,设计的重点将放在基于SFQ电路的SM4处理器架构上,并完成关键模块的SFQ电路设计。然后,我们将使用SFQ电路仿真工具对设计进行仿真验证,并分析仿真结果以评估电路性能和功耗。最后,根据仿真结果对电路进行优化,并完成最终设计,进行综合测试与验证。
本项目旨在探索基于SFQ电路的国密算法SM4处理器的设计、仿真与验证,具有重要的理论意义和应用价值。我们希望通过本项目的研究,为信息安全领域提供一种高效、低功耗的解决方案,并推动超导SFQ电路技术在密码学与信息安全领域的应用和发展。
题目11:面向国产智能芯片的大模型的编译优化研究
研究内容: 近年来,大规模预训练模型在自然语言处理、计算机视觉等领域取得了突破性的进展。然而,大模型推理往往需要高昂的硬件成本与巨大的资源消耗,使得人工智能应用的算力需求面临巨大挑战。国产智能芯片具有高性能、低能耗的特点,在大模型部署场景具有较大的潜力。为推动国产人工智能基础软件的发展,提升大模型在国产智能芯片的性能,需要设计符合大模型应用特性的深度学习编译优化方法,重点研究以下内容:
(1)研究深度学习大模型在低精度(如INT8、FP16等)下的运行时编译优化策略;设计面向国产智能芯片的高性能低精度编译优化算;分析低精度编译优化对模型精度和性能的影响,提出平衡精度和性能的解决方案。
(2)研究针对访存瓶颈的大模型编译优化方法,分析大模型推理的访存特性,识别导致访存瓶颈的关键因素;设计并实现针对访存瓶颈的编译优化策略,如数据布局优化、内存访问合并、数据重用等,提出针对性的编译优化方案。
(3)研究面向国产智能芯片硬件的统一中间表示方法,支持张量计算的灵活表达,实现计算图及算子层次的语义分析;探索深度学习大模型结构和编译器协同设计,提出跨平台的智能硬件适配方案和自适应优化策略。
题目12;高效量子电路映射与电路优化算法研究
研究内容: 量子计算作为一种新兴的计算技术,具有超越传统计算机的巨大潜力,特别是在解决特定类型问题(如因子分解和数据库搜索)方面。随着量子计算技术的快速发展,设计高效的量子电路映射与电路优化算法成为一项迫切的需求。量子电路映射是将抽象的量子电路映射到具体的量子硬件架构处理器上,以最小化量子比特间的交换操作和误差积累。量子电路优化包括量子电路调度和逻辑门结构优化。量子电路调度,即优化层间量子操作的执行顺序和资源分配。逻辑门结构优化,则关注简化电路结构、融合门操作以减少门数量和并行执行优化等。本课题旨在设计高效的量子电路映射与电路优化算法,以解决当前量子计算中的映射和资源优化问题,进一步提高量子处理器的计算效率,推动量子计算技术的发展。具体内容主要包括三个方面:
(1)量子电路映射算法设计:研究并设计高效的量子电路映射算法,将抽象的量子电路映射到具体的量子处理器架构上,最小化量子比特间的交换操作和误差积累。
(2)量子电路调度算法优化:探索并优化量子电路的量子操作的执行顺序和资源分配方法,提高量子处理器的计算效率。
(3)量子逻辑门结构优化策略研究:包括量子电路简化、量子门操作融合和并行执行优化等,以提升编译后的量子电路的性能。
四:申请书提交时间
2024年度开放课题申请书电子版提交时间:2024年6月30日之前。
处理器芯片全国重点实验室依托中国科学院计算技术研究所,是中国科学院批准正式启动建设的首批重点实验室之一,并被科技部遴选为首批 20个标杆全国重点实验室,2022年5月开始建设。实验室学术委员会主任为孙凝晖院士,实验室主任为陈云霁研究员。实验室近年来获得了处理器芯片领域首个国家自然科学奖等6项国家级科技奖励;在处理器芯片领域国际顶级会议发表论文的数量长期列居中国第一;在国际上成功开创了深度学习处理器等热门研究方向;直接或间接孵化了总市值数千亿元的国产处理器产业头部企业。