在不久前的人机大战中,AlphaGo依靠模仿人脑生物机理的深度学习算法而击败人类。深度学习,是源于对生物人脑机理的仿生学研究而形成的一种人工智能算法。作为深度学习神经网络的一种,卷积神经网络(CNN)算法已经成为当前人工智能机器视觉领域的研究热点,其特性可以概括为海量的输入数据、大规模的MAC运算、稀疏的权值矩阵、灵活的数据位宽和多样的网络拓扑等。52Eesmc
中国神经网络处理器前进到哪里?
而两家中国企业也在探索神经网络处理器的道路上取得了可喜的突破。今年3月,中科院计算技术研究所发布全球首个神经网络处理器科研成果。由陈云霁、陈天石课题组提出的深度学习处理器指令集DianNaoYu被计算机体系结构领域顶级国际会议ISCA2016所接收,其评分排名在近300篇投稿中高居第一。该成果的模拟实验表明,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升,但是面积和功耗仅为1/10。预计该项成果今年年内将正式投入产业化,未来将实现刷脸支付、手机图片搜索等应用。
52Eesmc
据了解,DianNao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2。在若干代表性神经网络上的实验结果表明,DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。DaDianNao则在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。52Eesmc
6月,中星微“数字多媒体芯片技术”国家重点实验室也宣布,经过五年多的攻坚克难和不懈努力,中国首款嵌入式神经网络处理器(NPU)芯片诞生,并已于今年3月6日在台积电(TSMC)实现投片量产。NPU采用了“数据驱动并行计算”的架构,颠覆了传统的冯诺依曼架构。这种数据流(Dataflow)类型的处理器,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据,使得人工智能在嵌入式机器视觉应用中可以大显身手。目前,该芯片已成功在视频监控领域实现产业化,并可广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。52Eesmc
型号为VC0758的NPU是针对CNN的算法模型特性而专门设计的一款神经网络处理器。每个NPU处理器具有4个内核,每个内核有两个数据流处理器, 每个数据流处理器具有8个长位宽或16个短位宽的单指令多数据(SIMD)运算单元。在一个时钟周期内可同时完成64个长位宽MAC运算或者128个短位宽MAC运算。每个NPU核具有38G Ops的长位宽处理能力或者76G Ops的短位宽处理能力。NPU的处理性能可以组成多核阵列来提升,也可以通过多芯片级联的方式进一步扩展,以满足更复杂的CNN网络运算的性能需求。52Eesmc
“每个NPU核还具有256KB Level-2 Cache,以及整块数据搬移(Block Data Access),片内数据共享(Data-sharing Between Processor Units),提升数据流的吞吐效率。”国家重点实验室执行主任张韵东表示,在软件方面,利用了稀疏数据优化(Optimization for Sparse Data)等特性提高计算效率。NPU支持Caffe、TensorFlow等多种神经网络框架, 支持AlexNet、GoogleNet等各类神经网络。52Eesmc
此外,通过集成NPU处理器内核以及国家标准的音视频编解码器(SVAC Codec),VC0758芯片也成为全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片。52Eesmc
后摩尔时代,中国企业变道超车的机会
“随着逐步逼近香农定理、摩尔定律的极限,面对大流量、低延时的理论还未创造出来。大家感到前途茫茫,找不到方向。”张韵东说,后摩尔定律时代有几条不同的路径,一种观点是继续推进摩尔定律,继续在新型材料、工艺制程和器件结构上努力,将摩尔定律再推进一步;另一种观点是超越摩尔定律,通过SoC将数字电路、模拟电路、存储器甚至射频电路集成在一颗芯片里,以实现更多的功能,或通过SIP采用多芯片堆叠的方式,将多颗裸芯片封装在一起。52Eesmc
面对摩尔定律的尽头,中星微通过NPU这块“引玉之砖”给出了全新的技术路线:智能摩尔之路(Intelligent Moore)。其内涵是,虽然物理层面和信号层面都受到物理规律的制约,但在信息层面的技术创新还远没有达到极限。如何进一步借鉴人脑智慧机制,研究新型人工智能计算方法,进一步提升信息处理的性能功耗价格比,可能是下一次信息革命的关键。52Eesmc
陈天石此前曾表示,寒武纪科技通过前期的工作,积累了多项深度学习芯片的“山顶专利”,形成了对深度学习处理器所有关键技术的全覆盖,构建寒武纪科技在这个领域的专业壁垒。如同过去中国人进入处理器行业,必须面临虚拟架构的一些技术壁垒一样,之后进入这个领域的公司,也必须面临寒武纪的壁垒,这是中国人的机会。52Eesmc
“寒武纪”处理器不是用来取代CPU的颠覆式革命,更像是一款针对智能认知等应用的专用芯片,优势集中在人脸识别、声音识别等人工智能方面。根据此前曝光的“寒武纪”处理器产业化时间表,第一步,2016年将率先在客户端、手机端以IP形式嵌入到芯片中;第二步,预期在2017年推出云端芯片,这也是寒武纪第一轮天使融资的主要目的。目前,寒武纪已经与曙光展开了战略合作,其云端芯片将有望应用到曙光云数据中心之中,作为大数据、人工智能的引擎,这也与曙光“数据中国”战略相匹配。52Eesmc