存算一体:重构AI计算的革命性技术(1)

存算一体:重构AI计算的革命性技术

一、从存储墙到存算一体:计算架构的百年变革

1.1 冯·诺依曼架构的困境与突破

在计算机发展的历史长河中,存储与计算的分离一直是制约性能提升的关键瓶颈。1945年,计算机科学家冯·诺依曼提出了现代计算机的基本架构,将数据存储和计算单元分离,通过总线进行数据传输。这一架构奠定了现代计算机的基础,但也带来了"存储墙"(Memory Wall)和"功耗墙"(Power Wall)的问题。在传统架构中,数据需要在存储单元和计算单元之间频繁搬运,这一过程消耗了大量时间和能量,尤其在处理大规模数据时,数据搬运的能耗甚至超过计算本身的能耗。

随着人工智能技术的爆发式发展,传统架构的局限性愈发明显。AI计算需要处理海量数据,尤其是深度学习中的神经网络模型,其参数数量呈指数级增长。以GPT-3为例,其训练一次消耗的算力高达3640 PF-days,相当于约17500块英伟达V100 GPU全年不停运算。在这种情况下,数据搬运造成的延迟和能耗成为制约AI算力提升的主要障碍。

存算一体(Computing-in-Memory,CIM)技术正是为解决这一困境而诞生的革命性架构。它打破了传统冯·诺依曼架构的桎梏,将计算单元直接嵌入存储芯片内部,使数据无需远距离搬运即可就地处理,大幅降低延迟、削减功耗,为AI芯片发展开辟了全新路径。

1.2 存算一体技术的起源与演进

存算一体技术的思想最早可追溯至20世纪80年代。当时,研究人员开始探索将计算功能融入存储单元的可能性,但受限于当时的技术条件,这一想法并未得到广泛应用。随着半导体工艺的进步和人工智能需求的激增,存算一体技术重新受到学术界和产业界的关注。

2012年,美国密歇根大学的研究团队在模拟计算领域取得突破,开发了基于闪存的模拟矩阵处理器原型,为存算一体技术奠定了基础。同年,Mythic公司在美国成立,专注于开发模拟内存计算技术和模拟矩阵处理器,成为早期存算一体领域的重要开拓者。

2016年,英特尔公司联合美国密歇根州立大学开始基于SRAM的计算型存储/存算一体技术研究,发布了支持逻辑操作的存储器,并在此基础上实现了支持无进位乘法运算的计算型缓存。这一阶段的研究主要集中在学术领域,尚未形成产业化。

2018年,深圳九天睿芯科技有限公司在刘洪杰博士的带领下成立,专注于存算一体芯片的研发,标志着中国在这一领域的积极布局。同年,知存科技在北京成立,开始了存算一体技术的产品化探索。

2021年被视为中国存算一体产业化元年。2022年3月,知存科技正式量产了国际首颗存内计算SoC芯片WTM2101并推向市场,标志着存算一体技术从实验室走向商业化应用。同年,Mythic推出了其首款商业芯片M1076,该芯片集成了76个AMP块,可存储多达80M的数据,无需任何外部存储器即可执行矩阵乘法运算,并向洛克希德马丁公司等知名客户发货。

2023年,后摩智能宣布完成了由现有投资者Atreides Management、DCVC和Lux Capital以及新投资者Catapult Ventures和Hermann Hauser Investment牵头的1300万美元融资,这笔资金将使其能够将下一代产品——改进的节能人工智能处理器M2000推向市场。

2025年,随着AI大模型的爆发式增长,存算一体技术迎来了发展的黄金期。各大厂商纷纷推出新一代产品,如后摩智能发布了即将在2025年第四季度量产的端边大模型AI芯片——后摩漫界M50,这是一款单芯片就能运行百亿参数大模型的存算一体芯片。

1.3 存算一体技术的现状与竞争格局

目前,全球存算一体芯片市场正处于快速发展阶段。根据相关预测,全球存算一体芯片市场将从2022年的163亿美元增长至2028年的413亿美元,年复合增长率16.6%,中国市场占比将超过40%,成为全球创新中心。

在竞争格局方面,全球范围内形成了中美两国主导的局面。美国以Mythic、Intel等公司为代表,中国则有知存科技、后摩智能、九天睿芯等一批创新企业。此外,三星、SK海力士等韩国企业也在积极布局这一领域。

中国存算一体芯片企业在政策和基金的双重助力下,发展尤为迅速。从2021年开始,中国半导体产业政策和基金对存算一体领域的支持力度不断加大,多家初创企业获得上亿元融资。发展存算一体芯片对于中国突破国外先进工艺封锁,实现芯片产业"弯道超车"有着重要意义。

在技术路线上,目前主要有基于SRAM、DRAM和非易失性存储器(如MRAM、PCM、RRAM等)的多种存算一体技术路线。其中,基于SRAM的存算一体芯片具有速度快、功耗低的优势,但存储密度相对较低;基于DRAM的方案可以实现较高的存储密度,但需要解决刷新问题;非易失性存储器则在待机功耗方面表现优异,适合对功耗敏感的应用场景。

IEEE正在制定《存算一体系统接口规范》,预计2026年发布,这将有助于统一存储-计算协同协议,推动存算一体技术的标准化发展。

二、存算一体技术的理论基础与工作原理

2.1 存算一体的理论背景

存算一体技术的理论基础源于对冯·诺依曼架构局限性的深刻理解。在传统冯·诺依曼架构中,计算单元(如CPU、GPU)与存储单元(如DRAM)之间的物理分离导致了数据传输的瓶颈,即所谓的"冯·诺依曼瓶颈"。随着半导体工艺的进步,处理器性能每年以约55%的速度增长,而内存性能仅以每年大约10%的速度提升,这种不均衡的发展速度导致存储速度严重滞后于处理器的计算速度。

在AI计算中,这一瓶颈尤为明显。以深度学习为例,神经网络的训练和推理过程涉及大量的矩阵乘法和累加操作。在传统架构下,数据需要在内存和处理器之间频繁传输,这一过程消耗了大量时间和能量。据研究,数据搬运功耗可达计算功耗的千倍,严重拖慢整体运算效率。

存算一体技术的核心思想是"数据不动计算动",通过将计算单元嵌入存储单元内部,使数据无需远距离搬运即可就地处理,从而彻底消除冯诺依曼计算架构的瓶颈,尤其适用于大数据量和大规模并行的应用场景,如深度学习神经网络。

从理论上看,存算一体技术可以实现三个方面的突破:

  1. 性能突破:通过减少数据传输延迟,提高计算效率。
  2. 能效突破:降低数据搬运带来的能耗,提高能效比。
  3. 架构突破:打破传统存储与计算分离的架构限制,为AI计算提供更高效的硬件支持。

2.2 存算一体的工作原理

存算一体技术的工作原理可以从硬件架构和计算流程两个方面来理解。

在硬件架构方面,存算一体芯片的基本组成单元是存算阵列。以基于SRAM的存算一体芯片为例,其基本结构是将传统的存储单元(如6T SRAM单元)进行改造,使其能够执行简单的计算操作。例如,可以通过在存储单元的位线上添加运算放大器,实现多个存储单元数据的并行加法运算。

对于基于非易失性存储器的存算一体芯片,如RRAM(忆阻器),其工作原理更为巧妙。忆阻器是一种具有记忆功能的非线性电阻元件,其电阻值可以根据流经的电流量而改变,并保持在一定的状态。在存算一体架构中,忆阻器不仅可以存储数据(通过不同的电阻值表示0和1),还可以直接执行矩阵乘法运算。具体来说,输入向量通过忆阻器阵列时,每个忆阻器的电阻值与输入电压相乘,产生相应的电流,这些电流在输出端累加,即可得到矩阵乘法的结果。

在计算流程方面,存算一体芯片采用了与传统处理器完全不同的工作模式。以深度学习推理为例,传统GPU需要将神经网络的权重从内存加载到计算单元,然后将输入数据也加载到计算单元进行矩阵乘法运算。而存算一体芯片则将神经网络的权重直接存储在存算阵列中,输入数据通过存算阵列时,计算与存储同时进行,直接在存储单元内部完成矩阵乘法,大大减少了数据搬运的开销。

Graphcore的IPU(智能处理单元)采用了另一种存算一体的思路。IPU芯片没有高速的片外存储,而是把存储放到了片上。整个芯片由多个核心组成,称作Tile。每个Tile由独立的计算单元和存储单元组成,整个片上存储是分布式的。每个Tile中有624KB的SRAM,整个芯片的存储大小为624KB乘以Tile数量。IPU芯片采用纯分布式的架构,每个Tile有自己的存储和计算资源,采用MIMD(多指令多数据)的计算架构,每个Tile可以独立地执行不同的指令,可以独立地访存。

2.3 存算一体的优缺点分析

存算一体技术相比传统冯·诺依曼架构具有以下显著优势:

  1. 能效比高:存算一体技术消除了数据在存储和计算单元之间的搬运,大幅降低了能耗。例如,Mythic的模拟内存计算技术与行业标准的AI推理数字CPU相比,功耗低3.8倍。知存科技的WTM2101芯片在运行高算力AI算法时,可将功耗降低到微安级别,在免唤醒的数百个命令词识别中整体功耗也低于1mA,NN环境降噪算法功耗仅在1mA到3mA之间,典型应用场景下工作功耗在微瓦级别。
  2. 计算密度高:由于计算和存储集成在一起,存算一体芯片可以在相同面积下实现更高的计算密度。例如,后摩智能的漫界M50采用自研的第二代IPU架构——天璇,实现了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB内存与153.6 GB/s的超高带宽,典型功耗仅10W。
  3. 延迟低:数据无需在存储和计算单元之间传输,大大降低了处理延迟。Mythic的M1076芯片在YOLOv5等全高清高精度物体探测器上实现了仅33毫秒的延迟。
  4. 成本效益好:存算一体芯片可以减少对外部存储器的需求,降低系统成本。同时,由于能效比高,也降低了运行成本。例如,Mythic的模拟内存计算技术与行业标准的AI推理数字CPU相比,价格便宜10倍。

然而,存算一体技术也面临一些挑战和局限:

  1. 精度问题:存算一体架构中,尤其是基于模拟计算的方案,信号在传输和处理过程中容易受到噪声干扰,导致计算精度下降。目前,大多数存算一体芯片主要用于AI推理而非训练,部分原因就是训练对精度要求更高。
  2. 工艺兼容性:存算一体芯片需要对传统存储工艺进行改造,这可能导致与现有半导体制造工艺的兼容性问题,增加制造成本和难度。
  3. 编程模型复杂:存算一体芯片的编程模型与传统处理器有很大不同,需要重新设计编译器和开发工具链,增加了软件开发的难度。例如,后摩智能重构的编译器后摩大道,应用了自动的优化算子,只要给一些输入的图Graph,它就能自动搜索最优化的策略,无需开发者手动尝试。
  4. 可扩展性挑战:随着模型规模的不断增大,存算一体芯片的内存容量可能成为瓶颈。虽然可以通过芯片堆叠或多芯片互联技术来扩展容量,但这又会增加系统复杂度和成本。

2.4 存算一体的适用场景

基于上述优缺点,存算一体技术特别适合以下几类应用场景:

  1. 边缘AI:边缘设备通常对功耗、体积和成本有严格限制,同时又需要一定的AI处理能力。存算一体芯片能够在低功耗下提供足够的AI性能,非常适合边缘AI应用。例如,Mythic的模拟内存计算技术特别适合在物联网、机器人和消费设备等边缘应用中。知存科技的WTM2101芯片已经应用于可穿戴设备、TWS耳机、智能家居、助听辅听等市场。
  2. 实时图像处理:视频处理需要处理大量数据,传统架构下的数据搬运会导致延迟增加。存算一体芯片可以在存储单元内直接对图像数据进行处理,大幅提高处理速度并降低延迟。例如,在智能驾驶领域,车辆需要在瞬间处理海量来自摄像头、激光雷达、毫米波雷达等传感器的数据,存算一体技术可将自动驾驶系统的决策延迟从数十毫秒压缩至数毫秒,大幅提升驾驶安全性。
  3. 语音识别与自然语言处理:语音识别和NLP任务通常涉及大量的矩阵运算和模式匹配,存算一体架构可以高效处理这些计算密集型任务。例如,知存科技的WTM2101芯片在语音识别任务中表现出色,能够实现数百个命令词的免唤醒识别。
  4. 高性能计算:对于科学计算、气候模拟等需要大规模并行计算的场景,存算一体技术可以提供更高的计算效率和能效比。例如,三星开发的HBM-PIM产品,将高带宽内存(HBM)与PIM技术精妙结合,为AI训练、高性能计算提供澎湃动力。在与全球顶尖科研机构合作的AI气候模拟项目中,基于HBM-PIM的计算平台,相比传统架构,数据处理速度飙升2.5倍,能耗降低60%。
  5. 大模型端侧部署:随着大模型的发展,将模型部署到终端设备成为一个重要需求。存算一体芯片的高算力和低功耗特性使其成为端侧大模型部署的理想选择。例如,后摩智能的漫界M50芯片能够在典型功耗仅10W的情况下,支持1.5B到70B参数的本地大模型运行,为PC、智能语音设备、机器人等智能移动终端提供高效的AI能力。

(未完待续…)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921145.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux之centos 系统常用命令详解(附实战案例)

CentOS 系统常用命令详解(附实战案例) 前言 本文针对 CentOS 7/8 系统,整理了运维工作中高频使用的命令,涵盖系统信息、文件操作、用户权限、软件管理、服务控制、网络配置等核心场景,并结合实战案例说明具体用法&…

生成知识图谱与技能树的工具指南:PlantUML、Mermaid 和 D3.js

摘要本文详细介绍了生成知识图谱、技能树和桑基图的工具,包括 PlantUML、Mermaid 和 D3.js,以及它们的概念、原理和使用方法。文档为前端开发提供了示例知识图谱、技能树和桑基图,并为新手提供了在线编辑器和 VS Code 的操作步骤,…

如何正确使用ChatGPT做数学建模比赛——数学建模AI使用技巧

文章转自川川菜鸟:如何正确使用ChatGPT做数学建模比赛 引言 数学建模竞赛是将数学理论应用于解决现实世界问题的一项重要赛事。在这类比赛中,学生团队通常需要在有限时间内完成从问题分析、模型构建、算法实现到结果分析和论文撰写的一整套流程。这对参…

存算一体:重构AI计算的革命性技术(3)

四、存算一体技术的未来发展趋势与前景 4.1 技术发展:从“单点突破”到“多维度融合” 4.1.1 新型存储介质:忆阻器成核心方向 未来5-10年,忆阻器(RRAM)将成为存算一体芯片的主流存储介质,关键突破集中在三方…

LangChain开源LLM集成:从本地部署到自定义生成的低成本落地方案

LangChain开源LLM集成:从本地部署到自定义生成的低成本落地方案 目录 核心定义与价值底层实现逻辑代码实践设计考量替代方案与优化空间 1. 核心定义与价值 1.1 本质定位:开源LLM适配机制的桥梁作用 LangChain的开源LLM适配机制本质上是一个标准化接口…

记录一下node后端写下载https的文件报错,而浏览器却可以下载。

用node 写的下载,直接报错error downloading or exxtraction file: unable to verify the first certificate 根据此信息也是排查了老半天了。浏览器却可下载。问了ai之后才发现,证书如果不完整,浏览器会自动补全证书。 先用此网站SSL Serv…

Spring AI调用sglang模型返回HTTP 400分析处理

Spring AI调用sglang模型返回HTTP 400分析处理 一、问题描述 环境 java21springboot: 3.5.5spring-ai: 1.0.1 问题描述 Spring AI调用公司部署的sglang大模型返回错误HTTP 400 - {"object":"error","message":[{type: missing, loc: (body,), ms…

rust学习之开发环境

工具链 安装 curl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh确认 ethanG5000:~$ rustc --version rustc 1.89.0 (29483883e 2025-08-04)创建工程 创建 cargo new demo上述,demo为工程名称。 调试 cargo run静态编译 目前计划使用rust编写一些小工具。…

计算机毕业设计选题推荐:基于Python+Django的新能源汽车数据分析系统

精彩专栏推荐订阅:在 下方专栏👇🏻👇🏻👇🏻👇🏻 💖🔥作者主页:计算机毕设木哥🔥 💖 文章目录 一、项目介绍二…

MATLAB矩阵及其运算(三)矩阵的创建

3.1 元素输入法元素输入法是最简单,也是最常用的一种矩阵的生成方法。例如:注意:整个矩阵必须用“[]”括起来;元素之间必须用逗号“,”或空格分开;矩阵的行与行之间必须用“;”或者回车键“Ente…

JVM分析(OOM、死锁、死循环)(JProfiler、arthas、jdk调优工具(命令行))

JVM分析(OOM、死锁、死循环)(JProfiler、arthas、jdk调优工具(命令行)) 本文声明: 以下内容均为 JDK 8 springboot 2.6.13 (windows 11 或 CentOS 7.9.2009 )进行 ssh连…

深度学习中的数据增强实战:基于PyTorch的图像分类任务优化

在深度学习的图像分类任务中,我们常常面临一个棘手的问题:训练数据不足。无论是小样本场景还是模型需要更高泛化能力的场景,单纯依靠原始数据训练的模型很容易陷入过拟合,导致在新数据上的表现不佳。这时候,数据增强&a…

IEEE 802.11 MAC架构解析:DCF与HCF如何塑造现代Wi-Fi网络?

IEEE 802.11 MAC架构解析:DCF与HCF如何塑造现代Wi-Fi网络? 你是否曾好奇,当多个设备同时连接到同一个Wi-Fi网络时,它们是如何避免数据冲突并高效共享无线信道的?这背后的核心秘密就隐藏在IEEE 802.11标准的MAC(媒体访问控制)子层架构中。今天,我们将深入解析这一架构的…

深入掌握sed:Linux文本处理的流式编辑器利器

一、前言:sed是什么? 二、sed的工作原理 数据处理流程: 详细工作流程: 三、sed命令常见用法 基本语法: 常用选项: 常用操作命令: 四、实用示例演示 1. 输出符合条件的文本(…

k8s三阶段项目

k8s部署discuz论坛和Tomcat商城 一、持久化存储—storageclassnfs 1.创建sa账户 [rootk8s-master scnfs]# cat nfs-provisioner-rbac.yaml # 1. ServiceAccount:供 NFS Provisioner 使用的服务账号 apiVersion: v1 kind: ServiceAccount metadata:name: nfs-prov…

Zynq开发实践(FPGA之流水线和冻结)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】谈到fpga相比较cpu的优势,很多时候我们都会谈到数据并发、边接收边处理、流水线这三个方面。所以,第三个优势,也…

接口保证幂等性你学废了吗?

接口幂等性定义:无论一次或多次调用某个接口,对资源产生的副作用都是一致的。 简单来说:用户由于各种原因(网络超时、前端重复点击、消息重试等)对同一个接口发了多次请求,系统只能处理一次,不能…

入行FPGA选择国企、私企还是外企?

不少人想要转行FPGA,但不知道该如何选择公司?下面就来为大家盘点一下FPGA大厂的薪资和工作情况,欢迎大家在评论区补充。一、老牌巨头在 FPGA设计 领域深耕许久,流程完善、技术扎实,公司各项制度都很完善,前…

考研总结,25考研京区上岸总结(踩坑和建议)

我的本科是一所普通的双非,其实,从我第一天入学时候,我就想走出去,开学给我带来的更多是失望(感觉自己高考太差劲了),是不甘心(自己一定可以去更好的地方)。我在等一次机…

基于数据挖掘的当代不孕症医案证治规律研究

标题:基于数据挖掘的当代不孕症医案证治规律研究内容:1.摘要 背景:随着现代生活方式的改变,不孕症的发病率呈上升趋势,为探索有效的中医证治规律,数据挖掘技术为其提供了新的途径。目的:运用数据挖掘方法研究当代不孕症…