英韧科技创新方案:低功耗动态优化助力AI存储突破

在3月27日的2025中国IC领袖峰会上,英韧科技股份有限公司创始人、董事长吴子宁围绕“AI时代下的数据存储创新与挑战”的主题,分享了英韧科技“如何通过低功耗模式和智能化调度芯片模块,帮助数据中心实现系统功耗的动态优化”。

进入到2025年,DeepSeek-R1 AI大模型的爆火,推动“存力接棒算力”趋势加速。现如今,支撑AI“存力”的基础设施的存储正面临新的挑战和机遇,需要更高的性能、更低的延迟及更高效的能耗管理,以满足AI数据中心对快速数据访问和处理的需求。ClResmc

与此同时,能耗问题也成为数据中心的一大痛点。根据国际能源署的预测,到2026年,数据中心的能耗可能超过1,000TWh(太瓦时),这大约相当于日本全年的电力消耗量,而该数字2022年仅为460TWh。在此背景下,如何让数据搬移、数据分享更顺畅,从而进一步助力数据中心降低能耗,正成为存储企业聚焦的重点。ClResmc

ClResmc

英韧科技股份有限公司创始人、董事长吴子宁ClResmc

在3月27日的2025中国IC领袖峰会上,英韧科技股份有限公司创始人、董事长吴子宁围绕“AI时代下的数据存储创新与挑战”的主题,分享了英韧科技“如何通过低功耗模式和智能化调度芯片模块,帮助数据中心实现系统功耗的动态优化”。ClResmc

存储是数字经济时代的基石

ClResmc

回顾20世纪30-40年代的IT时代,IT信息产业大约每10-15年就会经历一次重大的飞跃性变化。在1990-2000年的PC时代,英特尔是当时的引领者。随后,手机时代取代了PC时代,高通成为新的引领者。在过去的10年里,英伟达凭借其卓越的GPU技术,成为技术和市场的引领者。ClResmc

随着数据处理技术和CPU/GPU技术的发展,数据量也呈现出指数型增长。从2010年到2028年,全球数据量从1.2ZB增长到384ZB,年化增长率高达40%,即每两年翻一番。这一数据增长趋势为存储市场带来了巨大的机遇。ClResmc

现如今,数据成为了数字经济的基础,GPU、CPU等则是将数据转化为经济价值和产业价值的关键工具。在AI数据中心的发展中,虽然英伟达、GPU一直以来都备受关注,但信息系统实际上由计算、存储和网络三大支柱产业支撑。ClResmc

计算方面,CPU和GPU负责处理数据,使各种软件能够运行;存储方面,因为数据每两年翻一番,无论是在数据处理过程中,还是在最初采集的数据阶段,产生的数据都需要有被存储,因此存储产业也在不断演进,以支持数据处理和传输的需求;网络方面,则是将数据从采集地或存储地传输到计算单元,从而实现数据的价值。ClResmc

在吴子宁看来,在信息产业的三大支柱(计算、存储和网络)中,各环节的发展必须协同共进,不能有短板。但当前CPU每秒可处理60GB以上数据,GPU处理能力更是达到每秒数TB,而网络和存储的处理能力仍停留在十数GB级别,这使得存储成为限制系统性能的瓶颈。ClResmc

以数据中心为例,机柜内部,每个服务器通常配备20多块存储硬盘,这些硬盘正是英韧科技关注的重点。吴子宁介绍说,在早期,数据中心主要使用机械硬盘(HDD),HDD通过马达转动和磁头读取数据,但机械部件的存在导致可靠性较低、功耗较高且速度较慢。ClResmc

自2010年起,固态硬盘(SSD)逐渐崭露头角,开始取代HDD在数据中心的地位。机械硬盘的使用量逐年减少,SSD的使用量则逐年增加。典型的SSD主要由闪存颗粒、主控芯片和内存DRAM组成,与HDD相比,SSD不仅去除了机械部件,提高了可靠性和速度,还降低了功耗,这些特征驱使SSD成为数据中心存储设备的更优选择。ClResmc

与个人SSD相比,企业级SSD在复杂性上有了显著提升。这不仅体现在更多的闪存颗粒上,还体现在对每个存储单元存储更多比特的需求上。在过去十几年里,数据中心的存储技术经历了显著的演变。从早期每个单元存储一个比特的SLC(单层单元)技术,发展到如今每个单元能够存储16个比特的QLC(四层单元)技术。这种技术进步使得存储密度大幅提升,但同时也带来了新的挑战。随着存储密度的增加,每个比特所占的空间被压缩,数据出错的概率也随之上升,这对企业级SSD的应用提出了更高的要求。ClResmc

因为企业级SSD不仅要具备高寿命和高性能,还必须确保数据存储的绝对可靠性,所以它不能出现任何错误。然而,随着存储介质被不断压缩,要在提升存储密度的同时保持甚至提高速度和可靠性,变得愈发困难。存储容量的增大不仅意味着更多的闪存颗粒,还意味着更高的出错概率,这需要主控芯片和固件代码来解决。为了应对这些挑战,主控芯片和固件代码需要具备超前纠错能力、灵活的数据处理能力,并且需要与闪存颗粒厂商紧密合作,以确保每一代产品都能提供更出色的纠错能力和性能表现。ClResmc

ClResmc

在数据中心服务器使用的企业级SSD中,英韧科技的主控芯片(上图左边的主控芯片)起到了至关重要的作用。“通过主控芯片和其上运行的固件代码,我们一方面与主机CPU/GPU直接通信,通过PCIe接口控制闪存单元和内存DRAM。”吴子宁介绍道。ClResmc

ClResmc

企业级SSD具有较高的复杂性,这主要源于其大容量需求,需要配备更多的闪存颗粒。同时,为了满足数据中心对数据一致性和可靠性的严格要求,还增加了“掉电保护”功能的电容和电路。无论是复杂的闪存颗粒管理,还是掉电保护机制的运行,这些均由存储主控芯片控制。总之,主控芯片不仅决定了SSD的性能稳定性,还影响着其使用寿命和可靠性,确保在7×24小时不间断的应用场景中,数据能够随时被调用。ClResmc

英韧科技作为一家自研主控芯片的公司,要在市场上不断迭代,紧跟GPU/CPU的发展,面临着诸多挑战。吴子宁强调说:“我们需要掌握并不断迭代核心算法,提前布局新技术,同时确保每次研发和流片都能一次成功。这不仅需要长期耐心的投资,还需要坚定的执行力。”ClResmc

AI应用成为SSD的市场和技术的驱动力

过去几年,除了传统的数据中心和云计算,AI的落地也推动了数据中心的进一步发展。AI行业的发展不仅推动了数据中心的建设,还对数据中心的软硬件应用提出了新的要求。预计到2028年,中国AI大规模市场的应用规模将达到1,700亿元,其中不仅包括软件应用,还有对硬件提出的许多新需求。ClResmc

ClResmc

AI应用和大模型的落地需要计算、存储和网络的同步演进。以英伟达为例,其产品路线图显示,英伟达每年都会推出新产品,推理和计算能力每年翻番。与此同时,DRAM等内存技术也在指数级增长,以跟上英伟达的速度。在存储方面,SSD接口速度和闪存技术也在不断演进。今年第五代PCIe开始规模商用,明年可能会推出第六代PCIe。ClResmc

同时,AI对存储也提出了新的要求,尤其是在容量方面。传统云计算对单盘SSD的容量需求通常为4TB或8TB,一般使用TLC闪存颗粒。然而,AI应用对数据中心的存储需求更高,通常需要64TB的SSD。ClResmc

ClResmc

为什么AI数据中心需要这么大容量的存储呢?上面这张机柜布局图给出了答案。图中一排有10个机柜,左右各4个放置英伟达GPU服务器,中间2个分别用于网络交换和存储。在有限的机柜空间内存放更多数据,是当前面临的一大挑战。数据集中存储不仅节约空间,还能减少机柜数量,进而降低电力消耗和网络接口需求,因此大容量存储的需求急剧增加。ClResmc

目前,一个机柜的存储容量已达十几个PB,不久以后有望实现100PB。此外,AI处理对存储吞吐量要求极高,无论是生成图片、视频还是对话应答,都需要实时响应。与传统云计算不同,AI应用涉及大量随机读取,如调用模型数据和用户数据库。而写入操作主要是Checkpoint(检查点),即在训练或生成过程中保存中间结果,防止意外事故或掉电。Checkpoint写入量不大,但要求顺序写入且性能稳定,避免因写入失败导致数据阻塞。ClResmc

英韧科技创新方案:让数据搬移分享更顺畅

针对这些新的存储需求,英韧科技也做了全面的技术研究,提出了新的解决方案。根据吴子宁的介绍,首先,公司利用这几年业界提出的一些新的接口和概念,使数据搬移和与CPU/GPU的数据分享更加顺畅。ClResmc

ClResmc

他介绍了两种主要的优化数据交互流程的方案:一种是英伟达提出的GPU-Direct数据交互方式;另一种是CXL(Compute Express Link)技术。ClResmc

  • GPU-Direct优化了传统的数据交互流程。以往,GPU从存储单元获取数据时,需通过CPU和PCIe交换卡,经多次数据搬移,导致功耗高、延时长。GPU-Direct让GPU直接从存储单元获取数据,减少中间环节,降低功耗和延时,提升数据传输效率。
  • CXL是近几年新兴的技术,它将CPU的内存总线与外部的IO总线有机结合,统一了两者。通过CXL技术,CPU能够直接从内部调用外部较远层次的资源,将其纳入自身的资源池。

一般来说,CXL设备有三种形态:第一种是通过CXL,CPU可以与网卡等加速器共享缓冲区;第二种是通过CXL协议,CPU和GPU能够共享内存池;第三种是通过CXL扩展内存,可使服务器容量扩展至现有容量的10倍以上(这也是英韧科技目前在聚焦的方案)。ClResmc

CXL扩展内存指的是在存储领域,可以利用“内存扩展”的性能优势,将存储单元挂接到CXL总线,使CPU能够更便捷地调取数据。另外,还可以把数据直接调到应用单元、直接调到GPU节省能耗、节约链路的延时。除此之外,英韧科技也在利用新的存储介质做创新产品。ClResmc

ClResmc

传统存储介质受物理限制,在成本和效能间存在权衡。HBM和DDR的容量有限,而Flash虽便宜且容量大,但速度较慢。目前,业界正在研究介于两者之间的新型存储介质,如靠近DRAM的RAM、PCM、MRAM,以及靠近Flash的Low Latency Flash,后者利用成熟的Flash工艺,可以把性能提升至原来的10倍。ClResmc

结合超低延时Flash和CXL接口,可创造出创新产品。如通过CXL连接DRAM扩展存储,形成共享资源池,提高不同CPU/GPU间数据调度效率;或在CXL主控后连接低延时Flash,大幅扩展内存可访问空间。ClResmc

ClResmc

新型存储介质为克服AI带来的挑战提供了新思路。在功耗优化方面,英韧科技利用低功耗模式和智能调度芯片模块,主动进行流量控制和监控,实现系统功耗的动态调整,使功耗根据应用需求达到最优。ClResmc

据了解,通过智能功耗调整技术,英韧科技的主控芯片功耗降低了近30%,整盘功耗降低了10%。在AI数据中心耗电量巨大的背景下,这样的功耗优化显得尤为重要。ClResmc

小结:

展望未来,AI应用场景正驱动存储和IT行业重塑发展。英韧科技凭借多年技术积累,聚焦高密度、高速度、低延迟和低功耗等关键技术,充分利用新型存储介质和接口,通过创新的主控架构和智能化数据分层,使内存、闪存及新型非易失性介质协同工作,为系统设计人员提供便利。ClResmc

最后,吴子宁强调说:“我们将持续创新,不断演进主控芯片,为AI和云计算提供安全可靠的存储解决方案。”ClResmc

责编:Clover.li
本文为国际电子商情原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
李晋
国际电子商情助理产业分析师,专注汽车电子、人工智能、消费电子等领域的市场及供应链趋势。
  • 微信扫一扫,一键转发

  • 关注“国际电子商情” 微信公众号

近期热点

广告

EE直播间

更多>>

在线研讨会

更多>>