在面向下一代AI基础设施的关键技术攻关中,移动云与华为昇腾计算团队深度协同,实现了大模型推理引擎的架构级突破。双方基于昇腾AI基础软硬件平台,针对DeepSeek大模型完成了大规模专家并行(Expert Parallelism,简称“大EP”)与预填充-解码分离(Prefill-Decoding,简称“PD分离”)两大核心技术的全栈验证。此次验证,标志着国产算力体系在高并发推理场景的技术成熟度迈入新阶段。
“大EP”技术:通过精准的专家按需调度与高效通信机制,解决了MoE模型因专家稀疏激活导致的计算与通信资源浪费问题,使MoE模型推理效率更接近稠密模型。
“PD分离”技术:将推理过程中的Prefill和Decode阶段解耦,分别部署在专用节点(P节点负责高并行Prompt处理,D节点负责低延迟Token生成),解决了两阶段资源需求错配问题,显著提升资源利用率和系统吞吐量。
PD分离技术示意图
共建全栈测评规范,树立行业评估标杆
移动云与华为昇腾团队深度协同,共同制定大模型推理集群全栈测评规范。该规范涵盖算力密度、高并发吞吐、互联带宽、集合通信、计算精度、功耗经济性、稳定性与高可用保障八大核心维度,既填补了国产算力评估框架的空白,也为千亿级模型部署奠定了坚实评估基础。
覆盖核心应用场景,精准契合真实需求
测评团队针对512至64K的上下文长度范围,系统覆盖短输入-短输出、短输入-长输出、长输入-短输出、长输入-长输出四类核心范式,纳入了智能客服问答、金融报告解析、创意内容生成、代码逻辑分析等23个细分场景的测评数据。这一全面覆盖确保测评结果能真实反映实际业务负载下的性能表现,完整呈现从日常对话交互到复杂长文本解析的性能情况,为差异化场景的技术选型提供精准量化依据。
各类场景性能数据分析图
“大EP+PD分离”:单卡吞吐提效近5倍
在相同上下文场景测试中,“大EP+PD分离”架构较单机方案实现突破性提升:20输入512输出场景下,单卡吞吐量较单机提升一倍以上;7K输入1K输出场景下,单卡吞吐量较单机提升近五倍。该数据验证了PD分离技术成功突破显存墙瓶颈,实现资源利用率的代际跨越。
动态资源调度,实现算力最优配置
集群架构支持根据输入输出长度动态调节PD节点配比,以实现最优资源拓扑。这一架构为公有云大模型推理池的精细化资源调度提供了底层支撑。
本次移动云与华为昇腾的联合技术测评,不仅系统性验证了“大EP+PD分离”架构在差异化场景中的效能表现,更沉淀出可复用的标准化评估体系。依托这一成果,移动云将持续迭代公有云大模型推理池技术架构,推出更具性价比的产品,加速推动大语言模型规模化落地。