GPU之后，AI算力加速找到新方向

2024-03-13 09:19:02  作者：邵乐峰

种种迹象表明，得益于自身对神经网络计算进行的专门优化，在端侧和边缘侧处理复杂神经网络算法时拥有的更高效率和更低能耗，神经网络处理器(NPU)正成为推动AI手机、AI PC和端侧AI市场前行的强大动能，并有望开启属于自己的大规模商用时代。

什么是NPU？

NPU是一种专为实现以低功耗加速AI推理而打造的处理器，其架构随着新AI算法、模型和用例的发展不断演进。一个优秀的、专用的定制化NPU设计必须要在性能、工号、效率、可编程性和面积之间进行权衡取舍，才能够为处理AI工作负载做出正确的选择，与AI行业方向保持高度一致。t0wesmc

早在2015年，面向音频和语音AI用例而设计的NPU就诞生了，这些用例基于简单卷积神经网络(CNN)并且主要需要标量和向量数学运算。从2016年开始，拍照和视频AI用例大受欢迎，出现了基于Transformer、循环神经网络(RNN)、长短期记忆网络(LSTM)和更高维度的卷积神经网络(CNN)等更复杂的全新模型。这些工作负载需要大量张量数学运算，因此NPU增加了张量加速器和卷积加速，让处理效率大幅提升。t0wesmc

到了2023年，大语言模型(LLM)一比如Llama 2-7B，和大视觉模型(LVM)一比如 StableDiffusion赋能的生成式AI使得典型模型的大小提升超过了一个数量级。除计算需求之外，还需要重点考虑内存和系统设计，通过减少内存数据传输以提高性能和能效。未来预计将会出现对更大规模模型和多模态模型的需求。t0wesmc

AI PC将NPU推上竞争新高地

2024年被普遍视为AI PC元年，根据Canalys预测，到2027年，AI PC出货量将超过1.7亿台，其中近60%将部署在商用领域。为了顺应PC行业的发展潮流，并显著提高端侧AI能力，英特尔、AMD、高通等头部芯片厂商也正努力将专用NPU集成到CPU中，相关产品及路线图已经得到公布。t0wesmc

尽管AI PC实际市场表现取决于生态系统的协作水平，但毫无疑问的是，集成了NPU的中央处理器将驱动新一轮AI PC的发展。与此同时，如何在电脑处理器中发挥出NPU的最大功效，也成为了业内热议的话题。t0wesmc

2023年12月，AMD率先发布锐龙8040系列处理器，其最核心的变化之一就是新增了AI计算单元。根据AMD的说法，得益于NPU的加入，锐龙8040系列处理器的AI算力从10TOPS提升到了16TOPS，性能提升幅度达到了60%。这让锐龙8040系列处理器在LLM等模型性能更加突出，例如Llama 2大语言模型性能提升40%，视觉模型提升40%。t0wesmc

一周之后，英特尔新一代酷睿Ultra移动处理器正式发布，这是其40年来第一个内建NPU的处理器，用于在PC上带来高能效的AI加速和本地推理体验，被业界视作英特尔客户端处理器路线图的转折点。英特尔方面将NPU与CPU、GPU共同作为AI PC的三个底层算力引擎，预计在2024年，将有230多款机型搭载酷睿Ultra。t0wesmc

t0wesmc

来自Trendforce的消息称，微软计划在Windows12中为AI PC设置最低门槛，需要至少40TOPS算力和16GB内存。也就是说，PC芯片算力跨越40TOPS门槛将成为首要目标，这也将进一步推进NPU的升级方向，比如：提升算力、提高内存、降低功耗，芯片持续进行架构优化、异构计算优化和内存升级。t0wesmc

再来看一下高通的思路。高通是不打算从一开始就只依赖NPU实现移动设备AI体验的，而是将Hexagon NPU、Adreno GPU、Kryo或Oryon CPU、传感器中枢和内存子系统“打包”，组成“高通AI引擎”。这意味着高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。通过定制设计NPU并控制指令集架构(ISA)，高通能够快速进行设计演进和扩展，以解决瓶颈问题并优化性能。目前，高通NPU从2015年初次被集成到SoC至今，在9年左右的时间里其实已经更迭了四代不同的基础架构。t0wesmc

t0wesmc

本土NPU企业持续发力

在国内厂商当中，2017年，华为最先将NPU处理器集成到手机CPU中，使得CPU单位时间计算的数据量和单位功耗下的AI算力得到显著提升，让业内看到了NPU应用于终端设备的潜力。OPPO曾经的自研NPU马里亚纳X，在拍照、拍视频等大数据流场景下实现了更好的运算效率，拉开了高端智能手机的体验差距。t0wesmc

2018年11月，作为安谋科技成立后第一款正式对外发布的本土研发IP产品，“周易”Z1 NPU在乌镇举办的第五届世界互联网大会上公开亮相；两年后的2020年10月，能够在单颗SoC中实现128TOPS强大算力的“周易”Z2 NPU面世；2023年推出的“周易”X2 NPU则主要面向智能汽车产业和边缘计算，支持多核Cluster，以及大模型基础架构Transformer，可提供最高320TOPS的算力。商业化落地方面，目前“周易”NPU已和全志科技、芯擎科技、芯驰科技等多家本土芯片厂商实现了合作。t0wesmc

t0wesmc

“周易”X2 NPU主要功能升级（来源：安谋科技）t0wesmc

另一家企业芯原则在近日宣布，集成其NPU IP的AI芯片在全球范围内出货超过1亿颗，已被72家客户用于128款AI芯片中，用于物联网、可穿戴设备、智慧家居、安防监控、汽车电子等10个市场领域。其最新推出的VIP9000系列NPU IP结合芯原的Acuity工具包支持含PyTorch、ONNX和TensorFlow在内的所有主流框架。此外，它还具备4位量化和压缩技术，以解决带宽限制问题，便于在嵌入式设备上部署生成式人工智能和大型语言模型算法，如Stable Diffusion和Llama 2。t0wesmc

作为人工智能视觉感知芯片研发及基础算力平台公司，爱芯元智在2023年正式推出的第三代高算力、高能效比的SoC芯片AX650N，也为行业探索Transformer在端侧、边缘侧落地方面做出了有益的尝试。实测数据显示，目前大众普遍采用的Transformer网络SwinT，在爱芯元智AX650N平台上获得了361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力。t0wesmc

生成式AI与多样化处理器

与我们之前谈论的AI不同的是，生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加。高通在《通过NPU和异构计算开启终端侧生成式AI》的白皮书中，将这些用例分为三类：t0wesmc

1. 按需型用例由用户触发，需要立即响应，包括照片/视频拍摄、图像生成/编辑、代码生成、录音转录/摘要和文本(电子邮件、文档等)创作/摘要。这包括用户用手机输入文字创作自定义图像、在PC上生成会议摘要，或在开车时用语音查询最近的加油站。t0wesmc

2. 持续型用例运行时间较长，包括语音识别、游戏和视频的超级分辨率、视频通话的音频/视频处理以及实时翻译。这包括用户在海外出差时使用手机作为实时对话翻译器，以及在PC上玩游戏时逐帧运行超级分辨率。t0wesmc

3. 泛在型用例在后台持续运行，包括始终开启的预测性AI助手、基于情境感知的AI 个性化和高级文本自动填充。例如手机可以根据用户的对话内容自动建议与同事的会议、PC端的学习辅导助手则能够根据用户的答题情况实时调整学习资料。t0wesmc

白皮书指出，这些AI用例面临两大共同的关键挑战：第一，在功耗和散热受限的终端上使用通用CPU和GPU服务平台的不同需求，难以满足这些AI用例严苛且多样化的计算需求；第二，这些AI用例在不断演进，在功能完全固定的硬件上部署这些用例不切实际。t0wesmc

例如CPU和GPU是通用处理器，它们为灵活性而设计，非常易于编程，前者擅长顺序控制和即时性，后者适合并行数据流处理。但在运行操作系统、游戏和其他应用时，会随时限制他们运行AI工作负载的可用容量；NPU是以AI为中心定制设计的，擅长标量、向量和张量数学运算，虽然易编程性有所降低，但以此换得了更高的峰值性能、能效和面积效率，从而能够运行机器学习所需的大量乘法、加法和其他运算。t0wesmc

因此，只有支持处理多样性的异构计算架构，才能够发挥每个处理器的优势。正如在工具箱中选择合适的工具一样，选择合适的处理器取决于诸多因素，将增强生成式AI体验。换句话说，就是通过使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，以最大化发挥生成式AI终端用户体验。t0wesmc

端侧AI，千帆竞渡

如前文所述，无论是国际还是国内企业，尽管他们在NPU的技术和路线选择上各有侧重，但端侧AI是显而易见的竞争大市场和新市场，无论是AI手机、XR、AI PC等消费类产品，还是物联网、智慧家居、汽车电子领域，都是如此。t0wesmc

究其原因，还是自2023年起，大模型参数量出现显著分化，轻量化模型的出现逐步推动AI向端侧场景落地。以谷歌发布的开源轻量化大模型Gemma为例，该模型与多模态大模型Gemini采用相同的研究和技术构建，有2B和7B两个版本，可以直接在笔记本和台式机部署。 t0wesmc

近几年大有取代CNN之势的Transformer也值得多说几句。由于它可以获取全局特征，有一定的知识迁移性，能够很好地适应各种场景，不仅在COCO榜单上处于霸榜状态，很多以CNN为主的框架也已经切换到了Transformer。目前来看，Transformer大模型在云端主要还是通过GPU部署，在边缘侧、端侧硬件支撑方面，则更多依赖NPU实现对神经网络的加速。t0wesmc

这倒不是指CPU不能运行Transformer模型，只是它的运行速度无法满足实际应用落地需求。另一方面，尽管CNN和Transformer都属于神经网络，但Transformer的计算访存比比CNN低，精度和灵活度高，而此前市面上的一些NPU主要针对CNN网络做了一些过拟合的设计，导致在部署Transformer网络时遇到了功耗、效率等诸多问题，现在需要找到合适的新算力平台，并在算法侧找到能降低大参数模型带宽的新途径。t0wesmc

此外，轻量化AI大模型面世之后，场景应用的AI智能边际成本会大幅降低，因为它不太需要再为这些长尾的场景做专门的适配，预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”，一经部署就能达到比较好的效果，从而推动AI在端侧和边缘侧更大范围内的普及和提升。t0wesmc

结语

多模态AI的兴起，使得AI系统能够更全面地理解和处理现实世界中的复杂信息。除传统的语言以及图像间的交互作用，其结合声音、触觉以及动作等多维度信息进行深度学习，从而形成更准确、更具表现力的多模态表示。这也是AI模型走向多模态的必然因素：跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。因此，端侧AI越“卷”，越代表着NPU将快速迎来市场拐点。t0wesmc

得益于在端侧和边缘侧处理复杂神经网络算法时拥有的更高效率和更低能耗，神经网络处理器(NPU)正成为推动AI手机、AI PC和端侧AI市场前行的强大动能，并有望开启属于自己的大规模商用时代。3月28-29日，由Aspencore举办的国际集成电路展览会暨研讨会（IIC Shanghai）将在上海召开。在与IIC 2024同期举办的“GPU/AI芯片与高性能计算应用论坛”上，行业专家将与我们共同探讨AI产业的最新动向及技术趋势，点击这里参考详情并报名参会。t0wesmc

t0wesmc

责编：Elaine

本文为国际电子商情原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

邵乐峰

ASPENCORE中国区首席分析师。

进入专栏

处理器人工智能元器件市场分析

上一篇:要求加薪9%！NXP荷兰员工集体罢工
下一篇:32.32亿！亿都出售南通江海20.02%股权

微信扫一扫，一键转发
关注“国际电子商情” 微信公众号

没有退路的研发：华为麒麟、昇腾传来大消息
在全球半导体产业遭遇技术封锁与地缘政治博弈的双重挑战下，华为麒麟和昇腾芯片接连传来好消息，不仅为华为PC业务战略转型提供了核心动力，更以国产算力底座重塑 AI产业格局。
营收占比降到个位数，游戏业务对现在的英伟达还有价值吗
早在2019年，笔者就在一篇文章中表示，即便当时游戏业务占到NVIDIA总营收的54%，数据中心业务的高速增长势头却也已经表现得非常明确。而根据NVIDIA Q4 FY2025（截止2025年1月26日)季报，与数据中心业务的大热相较，NVIDIA的游戏业务（Gaming）当季营收为25.4亿美元，不说连计算加速卡的零头都没到，还环比跌了22%，同比跌11%。
从DeepSeek创新看RISC-V“新贵”崛起
RISC-V架构所具备的灵活性优势若能得到充分发挥，极有希望成为AI推理算力的理想搭档。未来，“RISC-V+AI将有望成为新组合，如同x86+Windows、Arm+安卓的经典组合”。
拖欠工资、融资失败、董事长被限高！合芯科技爆雷的背后
国产CPU企业爆雷的背后……
Intel“卖身”还得看AMD脸色？交叉授权协议成最大“绊脚
国际电子商情20日讯，Intel的出售计划似乎正面临一道难以逾越的高墙——其与AMD之间的广泛交叉授权协议。这一协议的存在，使得Intel的任何出售或合资计划都必须获得AMD的点头同意，否则将寸步难行……
25%或更高关税来袭！特朗普关税新政剑指汽车、芯片行业
据外媒报道，美国总统特朗普正计划对进口汽车、芯片和药品征收高达25%的关税，这一举措可能重塑全球贸易格局……
软银65亿美元收购Ampere谈判进入尾声，最快本月官宣
国际电子商情8日讯软银集团（SoftBank）以65亿美元（含债务）估值对美国芯片设计公司Ampere Computing LLC的收购交易接近达成，最快可能在本月官宣。交易若最终完成，将成为2025年全球半导体行业最具标志性的并购事件之一……
全球市场“卖爆”！2024年中国芯片出口首破万亿元大关
全球芯片市场的激烈竞争中，中国芯片产业迎来了历史性突破。2024年，中国芯片出口首次突破1万亿元大关，成为全球市场的焦点。然而，尽管成绩斐然，高端芯片的进口依赖仍然显著，未来的挑战依然严峻……
汽车OEM持续加大半导体投资，这三类芯片受青睐…
半导体对于原始设备制造商（OEM）来说正变得至关重要，因为它们提供了现代汽车中已成为标准配置的电子功能。
英伟达新一代AI芯片过热或延迟交付？回应来了……
国际电子商情讯，根据美媒近日披露，英伟达新一代Blackwell AI GPU已经面临延迟交付，并遇到了配套服务器过热的问题，客户担忧没有足够的时间让新数据中心启动和运行。
ADI公司收购FPGA公司Flex Logix
通过收购 Flex Logix，ADI 显著增强了数字产品组合
传Arm取消高通许可？官方回应……
国际电子商情23日讯据外媒报道，总部位于英国的Arm Holdings Plc拟取消与高通的长期合作，不再允许高通使用Arm的知识产权来设计芯片。对此，高通和Arm双方也都给予了强硬的回复……

英飞凌预计2025财年AI业务营收将突破6亿欧元，未来两年内有望超10
美通社消息，3月14日，“2025英飞凌消费、计算与通讯创新大会”（ICIC2025）在深圳举行。本届大会汇聚600多位业界精
湖南公布电子信息制造业重点项目，涉13个MLED、显示类项目
近日，湖南省工信厅发布了《2025年湖南电子信息制造业重点项目名单》，涵盖先进计算、音视频、新一代半导体、人
总投资7.6亿，惠科东莞平板显示项目二期开工
3月15日，质鼎集团公众号消息，惠科东莞平板显示集群电子商务项目二期正式开工。
中国台湾20家电子企业2024年第四季度和全年财报汇总，富士康、台积
富士康、台积电、广达、华硕、联发科、友达光电等中国台湾20家电子企业2024年第四季度和全年财报汇总。
全球LED显示屏市场机遇与挑战分析
近年来，LED显示屏市场持续演进。回顾2024年，行业呈现出哪些发展态势？展望2025年及未来，市场又将面临哪些机遇与
索尼发布全新RGBLED背光技术
近日，索尼正式发布新一代RGBLED背光技术系统，可实现4000尼特峰值亮度。索尼计划该系统将于2025年开始量产，并将
AI爆发，本土先进封装如何突破？
AI芯片是半导体最大的增长点，先进封装则是制造AI芯片的关键技术。此前英伟达H100成本约3000美元，而用先进封装
欧美车用固态电池验证加速，预计最快2026年逐步实现量产
截止2024年底，17家欧美固态电池企业融资总额已突破42亿美元。
中国半导体走向幕后时代
曾几何时，中国半导体几乎不断有大基金投资、大项目上马，以及美国制裁的新闻。长期处于聚光灯下，中国半导体成为
Dynabook（原东芝PC部门）在退出10年后重返美国消费市场
Dynabook在退出十年后宣布重返美国消费市场。
中国大陆PC市场出现反弹，预计2025年将实现3%的增长
Canalys最新数据显示，受到消费需求激增8%的推动，2024年第四季度中国大陆的PC市场开始复苏，同比增长2%。
受苹果手机年末生产高峰及中国补贴政策带动，4Q24智能手机产量季增
根据TrendForce集邦咨询最新调查，2024年第四季由于Apple（苹果）手机生产进入高峰，以及中国部分地方提供消费补贴

德州仪器推出全球超小型MCU，助力微型应用创新
德州仪器近日推出了全球超小型 MCU，进一步扩展了品类齐全的 Arm® Cortex®-M0+ MSPM0 MCU 产品组合。
芯向未来，2025英飞凌消费、计算与通讯创新大会成功举办
创新是企业持续发展最大的价值。
闪迪独立上市后首秀“肌肉”: UFS 4.1新品、企业级SSD满足云到端
“闪迪(Sandisk)又回来了！”在3月12日的存储年度盛会CFMS MemoryS 2025上，闪迪公司全球产品副总裁Eric Spa
摩尔斯微电子推出MM8102 Wi-Fi HaLow芯片，推动物联网新浪潮
摩尔斯微电子推出合规的Wi-Fi HaLow片上系统（Soc），开启欧洲连接技术新纪元。超低功耗、远距离连接功能现已为
存储大佬们都说了啥？MemoryS 2025 产业大咖演讲内容合集
CFMS | MemoryS 2025已圆满落幕，期间包括三星电子、长江存储、铠侠、美光、闪迪、高通、Arm、慧荣科技、S
安森美推出面向工业应用的先进深度传感器
Hyperlux™ ID iToF 系列将深度测量距离提升至最远 30 米，提高工业环境中的生产效率和安全性
西部数据推出大容量存储方案，赋能NAS用户、创意专业人士与内容创
26TB大容量CMR HDD助力WD Red Pro与G-DRIVE/G-RAID系列专业级产品矩阵，赋能数据存储拓展与生产力跃升
恩智浦发布全新一代S32K5微控制器系列，推进SDV区域控制架构发展，扩
全新一代MCU可以满足各种区域控制架构和电气化系统需求，助力汽车制造商向软件定义汽车（SDV）过渡。
将出色的高
【原厂入驻】聚洵半导体现已入驻iCEasy商城！
聚洵半导体科技（上海）有限公司（Gainsil Semiconductor Technology)于2016年成立于上海张江科学城，是一家全球
4月必逛电子展！六大热门新赛道，来NEPCON China 2025一展全看
领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCO
英飞凌成为全球首个在安全控制器中采用后量子加密算法而获得Comm
后量子加密技术帮助保护数字基础设施免受量子计算机在将来带来的潜在威胁。
踏时代之浪，共绘创新可持续新篇章
英飞凌坚信低碳化和数字化是未来十年的关键驱动力，半导体在应对能源挑战和推动数字化转型中扮演着重要角色。