存算一体：重构AI计算的革命性技术（1）

存算一体：重构AI计算的革命性技术

一、从存储墙到存算一体：计算架构的百年变革

1.1 冯·诺依曼架构的困境与突破

在计算机发展的历史长河中，存储与计算的分离一直是制约性能提升的关键瓶颈。1945年，计算机科学家冯·诺依曼提出了现代计算机的基本架构，将数据存储和计算单元分离，通过总线进行数据传输。这一架构奠定了现代计算机的基础，但也带来了"存储墙"(Memory Wall)和"功耗墙"(Power Wall)的问题。在传统架构中，数据需要在存储单元和计算单元之间频繁搬运，这一过程消耗了大量时间和能量，尤其在处理大规模数据时，数据搬运的能耗甚至超过计算本身的能耗。

随着人工智能技术的爆发式发展，传统架构的局限性愈发明显。AI计算需要处理海量数据，尤其是深度学习中的神经网络模型，其参数数量呈指数级增长。以GPT-3为例，其训练一次消耗的算力高达3640 PF-days，相当于约17500块英伟达V100 GPU全年不停运算。在这种情况下，数据搬运造成的延迟和能耗成为制约AI算力提升的主要障碍。

存算一体(Computing-in-Memory，CIM)技术正是为解决这一困境而诞生的革命性架构。它打破了传统冯·诺依曼架构的桎梏，将计算单元直接嵌入存储芯片内部，使数据无需远距离搬运即可就地处理，大幅降低延迟、削减功耗，为AI芯片发展开辟了全新路径。

1.2 存算一体技术的起源与演进

存算一体技术的思想最早可追溯至20世纪80年代。当时，研究人员开始探索将计算功能融入存储单元的可能性，但受限于当时的技术条件，这一想法并未得到广泛应用。随着半导体工艺的进步和人工智能需求的激增，存算一体技术重新受到学术界和产业界的关注。

2012年，美国密歇根大学的研究团队在模拟计算领域取得突破，开发了基于闪存的模拟矩阵处理器原型，为存算一体技术奠定了基础。同年，Mythic公司在美国成立，专注于开发模拟内存计算技术和模拟矩阵处理器，成为早期存算一体领域的重要开拓者。

2016年，英特尔公司联合美国密歇根州立大学开始基于SRAM的计算型存储/存算一体技术研究，发布了支持逻辑操作的存储器，并在此基础上实现了支持无进位乘法运算的计算型缓存。这一阶段的研究主要集中在学术领域，尚未形成产业化。

2018年，深圳九天睿芯科技有限公司在刘洪杰博士的带领下成立，专注于存算一体芯片的研发，标志着中国在这一领域的积极布局。同年，知存科技在北京成立，开始了存算一体技术的产品化探索。

2021年被视为中国存算一体产业化元年。2022年3月，知存科技正式量产了国际首颗存内计算SoC芯片WTM2101并推向市场，标志着存算一体技术从实验室走向商业化应用。同年，Mythic推出了其首款商业芯片M1076，该芯片集成了76个AMP块，可存储多达80M的数据，无需任何外部存储器即可执行矩阵乘法运算，并向洛克希德马丁公司等知名客户发货。

2023年，后摩智能宣布完成了由现有投资者Atreides Management、DCVC和Lux Capital以及新投资者Catapult Ventures和Hermann Hauser Investment牵头的1300万美元融资，这笔资金将使其能够将下一代产品——改进的节能人工智能处理器M2000推向市场。

2025年，随着AI大模型的爆发式增长，存算一体技术迎来了发展的黄金期。各大厂商纷纷推出新一代产品，如后摩智能发布了即将在2025年第四季度量产的端边大模型AI芯片——后摩漫界M50，这是一款单芯片就能运行百亿参数大模型的存算一体芯片。

1.3 存算一体技术的现状与竞争格局

目前，全球存算一体芯片市场正处于快速发展阶段。根据相关预测，全球存算一体芯片市场将从2022年的163亿美元增长至2028年的413亿美元，年复合增长率16.6%，中国市场占比将超过40%，成为全球创新中心。

在竞争格局方面，全球范围内形成了中美两国主导的局面。美国以Mythic、Intel等公司为代表，中国则有知存科技、后摩智能、九天睿芯等一批创新企业。此外，三星、SK海力士等韩国企业也在积极布局这一领域。

中国存算一体芯片企业在政策和基金的双重助力下，发展尤为迅速。从2021年开始，中国半导体产业政策和基金对存算一体领域的支持力度不断加大，多家初创企业获得上亿元融资。发展存算一体芯片对于中国突破国外先进工艺封锁，实现芯片产业"弯道超车"有着重要意义。

在技术路线上，目前主要有基于SRAM、DRAM和非易失性存储器（如MRAM、PCM、RRAM等）的多种存算一体技术路线。其中，基于SRAM的存算一体芯片具有速度快、功耗低的优势，但存储密度相对较低；基于DRAM的方案可以实现较高的存储密度，但需要解决刷新问题；非易失性存储器则在待机功耗方面表现优异，适合对功耗敏感的应用场景。

IEEE正在制定《存算一体系统接口规范》，预计2026年发布，这将有助于统一存储-计算协同协议，推动存算一体技术的标准化发展。

二、存算一体技术的理论基础与工作原理

2.1 存算一体的理论背景

存算一体技术的理论基础源于对冯·诺依曼架构局限性的深刻理解。在传统冯·诺依曼架构中，计算单元（如CPU、GPU）与存储单元（如DRAM）之间的物理分离导致了数据传输的瓶颈，即所谓的"冯·诺依曼瓶颈"。随着半导体工艺的进步，处理器性能每年以约55%的速度增长，而内存性能仅以每年大约10%的速度提升，这种不均衡的发展速度导致存储速度严重滞后于处理器的计算速度。

在AI计算中，这一瓶颈尤为明显。以深度学习为例，神经网络的训练和推理过程涉及大量的矩阵乘法和累加操作。在传统架构下，数据需要在内存和处理器之间频繁传输，这一过程消耗了大量时间和能量。据研究，数据搬运功耗可达计算功耗的千倍，严重拖慢整体运算效率。

存算一体技术的核心思想是"数据不动计算动"，通过将计算单元嵌入存储单元内部，使数据无需远距离搬运即可就地处理，从而彻底消除冯诺依曼计算架构的瓶颈，尤其适用于大数据量和大规模并行的应用场景，如深度学习神经网络。

从理论上看，存算一体技术可以实现三个方面的突破：

性能突破：通过减少数据传输延迟，提高计算效率。
能效突破：降低数据搬运带来的能耗，提高能效比。
架构突破：打破传统存储与计算分离的架构限制，为AI计算提供更高效的硬件支持。

2.2 存算一体的工作原理

存算一体技术的工作原理可以从硬件架构和计算流程两个方面来理解。

在硬件架构方面，存算一体芯片的基本组成单元是存算阵列。以基于SRAM的存算一体芯片为例，其基本结构是将传统的存储单元（如6T SRAM单元）进行改造，使其能够执行简单的计算操作。例如，可以通过在存储单元的位线上添加运算放大器，实现多个存储单元数据的并行加法运算。

对于基于非易失性存储器的存算一体芯片，如RRAM（忆阻器），其工作原理更为巧妙。忆阻器是一种具有记忆功能的非线性电阻元件，其电阻值可以根据流经的电流量而改变，并保持在一定的状态。在存算一体架构中，忆阻器不仅可以存储数据（通过不同的电阻值表示0和1），还可以直接执行矩阵乘法运算。具体来说，输入向量通过忆阻器阵列时，每个忆阻器的电阻值与输入电压相乘，产生相应的电流，这些电流在输出端累加，即可得到矩阵乘法的结果。

在计算流程方面，存算一体芯片采用了与传统处理器完全不同的工作模式。以深度学习推理为例，传统GPU需要将神经网络的权重从内存加载到计算单元，然后将输入数据也加载到计算单元进行矩阵乘法运算。而存算一体芯片则将神经网络的权重直接存储在存算阵列中，输入数据通过存算阵列时，计算与存储同时进行，直接在存储单元内部完成矩阵乘法，大大减少了数据搬运的开销。

Graphcore的IPU（智能处理单元）采用了另一种存算一体的思路。IPU芯片没有高速的片外存储，而是把存储放到了片上。整个芯片由多个核心组成，称作Tile。每个Tile由独立的计算单元和存储单元组成，整个片上存储是分布式的。每个Tile中有624KB的SRAM，整个芯片的存储大小为624KB乘以Tile数量。IPU芯片采用纯分布式的架构，每个Tile有自己的存储和计算资源，采用MIMD（多指令多数据）的计算架构，每个Tile可以独立地执行不同的指令，可以独立地访存。

2.3 存算一体的优缺点分析

存算一体技术相比传统冯·诺依曼架构具有以下显著优势：

能效比高：存算一体技术消除了数据在存储和计算单元之间的搬运，大幅降低了能耗。例如，Mythic的模拟内存计算技术与行业标准的AI推理数字CPU相比，功耗低3.8倍。知存科技的WTM2101芯片在运行高算力AI算法时，可将功耗降低到微安级别，在免唤醒的数百个命令词识别中整体功耗也低于1mA，NN环境降噪算法功耗仅在1mA到3mA之间，典型应用场景下工作功耗在微瓦级别。
计算密度高：由于计算和存储集成在一起，存算一体芯片可以在相同面积下实现更高的计算密度。例如，后摩智能的漫界M50采用自研的第二代IPU架构——天璇，实现了160TOPS@INT8、100TFLOPS@bFP16的物理算力，搭配最大48GB内存与153.6 GB/s的超高带宽，典型功耗仅10W。
延迟低：数据无需在存储和计算单元之间传输，大大降低了处理延迟。Mythic的M1076芯片在YOLOv5等全高清高精度物体探测器上实现了仅33毫秒的延迟。
成本效益好：存算一体芯片可以减少对外部存储器的需求，降低系统成本。同时，由于能效比高，也降低了运行成本。例如，Mythic的模拟内存计算技术与行业标准的AI推理数字CPU相比，价格便宜10倍。

然而，存算一体技术也面临一些挑战和局限：

精度问题：存算一体架构中，尤其是基于模拟计算的方案，信号在传输和处理过程中容易受到噪声干扰，导致计算精度下降。目前，大多数存算一体芯片主要用于AI推理而非训练，部分原因就是训练对精度要求更高。
工艺兼容性：存算一体芯片需要对传统存储工艺进行改造，这可能导致与现有半导体制造工艺的兼容性问题，增加制造成本和难度。
编程模型复杂：存算一体芯片的编程模型与传统处理器有很大不同，需要重新设计编译器和开发工具链，增加了软件开发的难度。例如，后摩智能重构的编译器后摩大道，应用了自动的优化算子，只要给一些输入的图Graph，它就能自动搜索最优化的策略，无需开发者手动尝试。
可扩展性挑战：随着模型规模的不断增大，存算一体芯片的内存容量可能成为瓶颈。虽然可以通过芯片堆叠或多芯片互联技术来扩展容量，但这又会增加系统复杂度和成本。

2.4 存算一体的适用场景

基于上述优缺点，存算一体技术特别适合以下几类应用场景：

边缘AI：边缘设备通常对功耗、体积和成本有严格限制，同时又需要一定的AI处理能力。存算一体芯片能够在低功耗下提供足够的AI性能，非常适合边缘AI应用。例如，Mythic的模拟内存计算技术特别适合在物联网、机器人和消费设备等边缘应用中。知存科技的WTM2101芯片已经应用于可穿戴设备、TWS耳机、智能家居、助听辅听等市场。
实时图像处理：视频处理需要处理大量数据，传统架构下的数据搬运会导致延迟增加。存算一体芯片可以在存储单元内直接对图像数据进行处理，大幅提高处理速度并降低延迟。例如，在智能驾驶领域，车辆需要在瞬间处理海量来自摄像头、激光雷达、毫米波雷达等传感器的数据，存算一体技术可将自动驾驶系统的决策延迟从数十毫秒压缩至数毫秒，大幅提升驾驶安全性。
语音识别与自然语言处理：语音识别和NLP任务通常涉及大量的矩阵运算和模式匹配，存算一体架构可以高效处理这些计算密集型任务。例如，知存科技的WTM2101芯片在语音识别任务中表现出色，能够实现数百个命令词的免唤醒识别。
高性能计算：对于科学计算、气候模拟等需要大规模并行计算的场景，存算一体技术可以提供更高的计算效率和能效比。例如，三星开发的HBM-PIM产品，将高带宽内存（HBM）与PIM技术精妙结合，为AI训练、高性能计算提供澎湃动力。在与全球顶尖科研机构合作的AI气候模拟项目中，基于HBM-PIM的计算平台，相比传统架构，数据处理速度飙升2.5倍，能耗降低60%。
大模型端侧部署：随着大模型的发展，将模型部署到终端设备成为一个重要需求。存算一体芯片的高算力和低功耗特性使其成为端侧大模型部署的理想选择。例如，后摩智能的漫界M50芯片能够在典型功耗仅10W的情况下，支持1.5B到70B参数的本地大模型运行，为PC、智能语音设备、机器人等智能移动终端提供高效的AI能力。

（未完待续…）