“周易”X2 NPU诞生背后:架构创新带来算力飞跃 开源开放共建AI生态

作者: 张轶群 2023-03-31
AI解读文章
来源:爱集微 #安谋科技# #周易NPU# #算力#
1.6w

集微网报道(文/张轶群)近年来,随着智能驾驶规模化落地进程不断加快,边缘计算场景的不断涌现,对于算力提出了更高且广泛的要求。NPU作为AI的核心载体,也肩负起更多算力使命。

日前,安谋科技推出新一代NPU产品 “周易”X2 NPU,凭借创新的架构以及软件能力的提升,实现了性能与算力的飞跃,着眼于蓬勃兴起的汽车和边缘计算领域,进一步拓宽了自研产品线矩阵,并通过开源和推出生态伙伴计划,共建NPU产业生态。

据了解,“周易”X2 NPU现已正式交付客户,预计今年便会有多款搭载“周易”X2 NPU的芯片产品面世。

瞄准汽车、边缘计算市场

2018年11月,安谋科技发布了“周易”人工智能平台,其中Z1 NPU是安谋科技合资公司成立后第一款正式对外发布的本土研发IP产品。此后,安谋科技相继发布了“周易”的Z系列——Z1、Z2、Z3产品,并已有客户和量产产品。

Z系列定位主要是面向AIoT场景,比如智能音箱、扫地机器人、电视机、机顶盒、安防摄像头等。这样的场景具有的特点是需要平衡成本和性能,对算力要求并不会特别高。因此,Z系列定位会在性价比上做更多考虑,比如尽可能多地优化面积,或者从架构实际上尽量不会过于复杂,尽量精简内部缓存等。

此次发布的“周易”X系列,定位为高性能的NPU产品线,主要面向大算力需求。如今,手持设备、手机、智能座舱等场景,算力已经到30TOPS,而在ADAS的L3、L4场景,则对应着几十到几百TOPS的算力需求。应用端的广泛需求,大算力场景的不断涌现,以及澎湃的汽车产业发展,成为此次“周易”X2 NPU发布的背景,也进一步丰富了安谋科技自研NPU产品线。

在安谋科技执行副总裁、产品研发负责人刘澍看来,中国有强劲的汽车发展动力,市场潜力巨大,而且在过去的几年中,中国涌现出了特别多的本土智能汽车品牌并在全球市场上扮演越来越重要的角色,汽车产业很有可能会复刻手机产业的辉煌历程:在从功能机到智能机升级的过程中,中国市场涌现出一大批新的品牌,它们日益强大,催生了产业格局新的变化。这是安谋科技看好中国汽车市场的原因。这些新势力汽车品牌也是“周易”X2 NPU所瞄准的重要的合作伙伴和领域。

“现在日常智能驾驶已经普遍用上L2级别智能辅助驾驶,预计L3、L4级的自动驾驶成熟还有几年的时间。因此安谋科技推出的自研IP产品也会随潮流向前发展,从支持芯片客户,到生态、软件合作伙伴再到应用,甚至参与或支持一些标准法规的建立,希望到2030年,能够实现支持中国自动驾驶成熟量产方案的落地。”刘澍说。

如今,汽车自动驾驶应用对人工智能的需求越来越多,更多的摄像头、雷达以及传感器,产生海量的数据,更加清晰的监控内容,更加智慧的辅助决策系统,更高的帧率,更大的算力,更多的人机交互和安全性等需求,都给IP产品提出了更高的要求。

刘澍表示,得益于算力性能的提升,“周易”X系列NPU不仅可适用于汽车领域,对于边缘侧服务器类型,例如手机、PC、平板电脑等应用场景,对视觉、多媒体处理也有很好的性能支撑,同时在边缘侧的设备里能够达到很好的功耗和带宽平衡。

架构革新,算力倍增

同此前主要针对AIoT领域的“周易”X1 NPU产品有所区别,“周易”X2 NPU是安谋科技首款基于V3架构的NPU产品,在大幅提升算力的同时,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。

据安谋科技产品总监杨磊介绍,V3架构下的“周易”X2 NPU具有多方面的优势:

一是支持更大算力。相较于“周易”X1和“周易”Z系列单核解决方案,“周易”X2提出了集群(Cluster)概念,一个Cluster可以包含1-4个核,这样使得算力实现了成倍提升。

在Cluster内部有互联的总线,用于数据的沟通和维护,也有内部的存储系统,协调不同核间的数据通信。同时,X2中还支持多个Cluster,这样算力又可以成倍提升。因此在X2中,通过多核、多Cluster构成了子系统,完成大算力产品形态的交付。可以从10TOPS到80TOPS,通过扩展成多核单Cluster,可以扩展到320TOPS算力。

二是支持更好的i-Tiling的技术方案。随着汽车以及智能终端处理的数据分辨率向更大、更高清演进。在对算力提出要求的同时,对带宽的要求也成倍提升。比如一个4K分辨率的单路图像,要做一个去噪的计算,需要40GB的带宽。

正是基于此,安谋科技推出了i-Tiling技术,将一个大的图片分拆成若干小块,以至于可以在芯片内部memory缓存,无需将数据从外面的设备中做读写操作,从而大幅减少对外部带宽的需求,进一步提升计算效率,从而大幅降低系统的成本。

三是实时任务调度。多核方案中的难点之一是就如何将多核算力充分发挥,此外,考虑到主要面向汽车等场景,对于实时性要求很高,比如多路摄像头数据流的处理等,因此,增加了专门的硬件加速调度器进行实时的任务调度和管理,同时调度多个Cluster的多个核心的功能。

这个硬件加速单元被称作Task Scheduling Manager(简称为TSM)负责多核或者多个计算单元的实时任务调度。调度间隔可以达到100纳秒,能够充分发挥硬件计算效率。

四是支持混合精度计算。以前的“周易”Z系列,包括“周易”X1都是基于定点方案,即int8整型方案而来。好处是兼顾计算性能和密度,即整体芯片成本。但汽车领域对于计算精度要求更高,因此在V3架构中支持了混合精度计算,可以很好地平衡功耗、算力密度以及计算精度。

五是针对在汽车领域大量采用的Transformer AI模型架构,进行了专门的性能优化。Transformer结构优化后,在算力相等的情况下,可以比上一代的产品性能提升10倍。

六是增加了无损的权重压缩技术,进一步节省带宽。

七是针对手持设备,功耗受限制,在低功耗领域进行了很多技术的升级。“周易”X2 NPU可以做到在7nm工艺节点10TOP/W的能效。

八是面向手持设备进行了专门的优化。针对拍照功能的AI降噪,视频影像的超级分辨率、插帧等技术都进行了专门的优化。

着力提升软件易用性

除了硬件之外,在“周易” X2 NPU上,还提供了一整套完整的“周易” Compass软件平台。该平台包括模型编译器、完整的调试器,不仅可以分析和判断运行中是否有一些异常和错误,还可以调试性能。

无论是在汽车还是在手持设备上,性能的分析和优化一直是实际部署当中最重要的一个工作。安谋科技提供的性能调试工具 ,不单单只是软件工具,在硬件中也嵌入了很多和性能调试相关的如计数器或者其他分析组件。在电脑、汽车等场景实际落地过程中,通过抓取数据,可以方便地在硬件平台分析算法的真实性能。

目前,“周易” Compass软件平台现在已经支持了上百种AI算子或者是AI层,也支持上百种AI模型,希望通过借此支持全部的软件模型。此外,因为整个“周易”NPU具有完全可编程性,客户可以开发新的算子。

据杨磊介绍,尤其是在汽车领域,模型、数据都是核心资产,相应算法中就采用了很多自定义算子,也就是非标准算子,其实这些算子都能体现出车厂、自动驾驶厂商的特有技术或方案。

“对这些厂商而言,可以通过C语言或OpenCL实现自定义算子,再用安谋科技提供的编译器去编译,并把这个算子注册到模型编译器中,客户就可以进行私有模型部署,整个过程并不需要IP厂商来参与,完全可以由客户自己实现。今年我们一个汽车领域的合作伙伴,自己就开发了约40个算子,可见在汽车场景对自定义算子的需求其实是相当强烈的。也反映出我们可以很好地支持客户自主开发自定义算子的需求。”杨磊说。

据安谋科技NPU研发高级总监孙锦鸿介绍,在“周易”X2 NPU上,安谋科技研发团队在软件方面下了很多功夫,如软件的易用性、部署难度、可迁移性等,针对编程性问题,多核调度、TSM单元设计等都做了很多研究和不同设计。

在此过程中,最困难的点还是易用性、可编程性或者如何最有效地把软件迁移到“周易”的产品上。基于此,安谋科技做了三方面改进,第一是支持统一编程的OpenCL编程界面,且该编程界面符合当下主流编程习惯。第二加入了primitive(原语)的方法,把高效的算子整合起来。第三是支持TVM统一框架,可以对接不同框架,也支持与GPU、CPU等计算单元的异构联动,更好地克服这些问题。

“我觉得其中最困难的是如何做到软硬件的平衡,得益于我们有一个规模相当且完整的团队,在软硬件的协同上能得到很好的沟通和配合,开发满足最终目标且可以协同的软件和硬件。”孙锦鸿说。

据了解,安谋科技NPU团队经过5年多建设,目前已有130多位工程师,从事开发包含硬件和软件的NPU全栈研发。

开源开放,共建AI“芯”生态

作为IP厂商而言,除了要保持产品性能的持续迭代,在生态建设上往往也要倾注很多心血。伴随“周易” X2 NPU的发布,安谋科技也推出了“周易”NPU软件开源计划,并介绍生态伙伴计划的最新进展,让合作伙伴免费参与其中,同时可以围绕客户的芯片打造出千百种应用和算法。

杨磊介绍,“周易”NPU软件开源计划从2022年就开始进行项目准备,截至目前已经开放了第一部分的源代码,涵盖了中间表示层也就是IR规范,也包含了编译器的模型解析器代码、模型量化代码以及软件驱动代码,并已在Gitee、GitHub上建立该项目的开源库,开发者可以方便地在这些平台上获取资源。

此外,杨磊表示,安谋科技也更欢迎自研NPU可以兼容“周易”架构,除前述软件开源外,安谋科技后续还将逐步开放更多资源,特别欢迎有自研NPU想法的合作伙伴也来兼容“周易”NPU的架构。

“开源带来的好处一是可以满足做应用移植和应用部署时对于白盒开发的需求。二是即使是做自研NPU的合作伙伴,加入“周易”NPU软件开源计划对其依然有帮助,据测算大约可以帮助节省50%的软件工作量。对算法应用开发者来说,开源能使其拥有一个统一的方案,即使使用其他厂商的硬件,这个项目提供的也是同样的软件方案。从扩大生态的角度,合作伙伴不一定非要用安谋科技的NPU,可以通过参与软件开源项目,自己研发NPU,通过软件合作,大家也可以共建一个软件的生态。”杨磊说。

据了解,下一步安谋科技会陆续开放更多的源代码,核心诉求是希望方便开发者、算法工程师能够更加快速、方便地部署应用。同时也非常欢迎第三方有自研NPU的合作伙伴能一起参与到开源项目中来,加快NPU的设计甚至是兼容开源的软件方案,共同建设一套NPU产业生态。

同时,安谋科技的生态合作伙伴计划与开源项目同步展开,从2022年7月开始开展生态伙伴计划以来,得到了上下游合作伙伴广泛的支持和积极响应,目前已经有超过40家合作伙伴加入,已经涵盖了智能汽车、物联网、基础设施等领域的龙头企业,既包括有芯片厂商也有算法厂商、Tier1和Tier2的上下游合作伙伴,目前安谋科技还在积极推进跟各个合作伙伴的战略合作以及实际项目的落地,包括产品展示类项目以及真正落地的产品项目联合开发和推广。

“总而言之,我们希望通过开源计划、生态合作伙伴计划来推动软件开发者更加方便、快捷地做应用的部署和移植。另外,我们也希望透过这样开源的方式和方法,帮助有自研NPU的合作伙伴一起来构建同一个AI软件生态。”杨磊最后补充道。

责编: 林美炳
来源:爱集微 #安谋科技# #周易NPU# #算力#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...