移动云×华为昇腾：“大EP+PD分离”架构实现单卡吞吐量跨越式提升！

在面向下一代AI基础设施的关键技术攻关中，移动云与华为昇腾计算团队深度协同，实现了大模型推理引擎的架构级突破。双方基于昇腾AI基础软硬件平台，针对DeepSeek大模型完成了大规模专家并行（Expert Parallelism，简称“大EP”）与预填充-解码分离（Prefill-Decoding，简称“PD分离”）两大核心技术的全栈验证。此次验证，标志着国产算力体系在高并发推理场景的技术成熟度迈入新阶段。

“大EP”技术：通过精准的专家按需调度与高效通信机制，解决了MoE模型因专家稀疏激活导致的计算与通信资源浪费问题，使MoE模型推理效率更接近稠密模型。

“PD分离”技术：将推理过程中的Prefill和Decode阶段解耦，分别部署在专用节点（P节点负责高并行Prompt处理，D节点负责低延迟Token生成），解决了两阶段资源需求错配问题，显著提升资源利用率和系统吞吐量。

PD分离技术示意图

共建全栈测评规范，树立行业评估标杆

移动云与华为昇腾团队深度协同，共同制定大模型推理集群全栈测评规范。该规范涵盖算力密度、高并发吞吐、互联带宽、集合通信、计算精度、功耗经济性、稳定性与高可用保障八大核心维度，既填补了国产算力评估框架的空白，也为千亿级模型部署奠定了坚实评估基础。

覆盖核心应用场景，精准契合真实需求

测评团队针对512至64K的上下文长度范围，系统覆盖短输入-短输出、短输入-长输出、长输入-短输出、长输入-长输出四类核心范式，纳入了智能客服问答、金融报告解析、创意内容生成、代码逻辑分析等23个细分场景的测评数据。这一全面覆盖确保测评结果能真实反映实际业务负载下的性能表现，完整呈现从日常对话交互到复杂长文本解析的性能情况，为差异化场景的技术选型提供精准量化依据。

各类场景性能数据分析图

“大EP+PD分离”：单卡吞吐提效近5倍

在相同上下文场景测试中，“大EP+PD分离”架构较单机方案实现突破性提升：20输入512输出场景下，单卡吞吐量较单机提升一倍以上；7K输入1K输出场景下，单卡吞吐量较单机提升近五倍。该数据验证了PD分离技术成功突破显存墙瓶颈，实现资源利用率的代际跨越。

动态资源调度，实现算力最优配置

集群架构支持根据输入输出长度动态调节PD节点配比，以实现最优资源拓扑。这一架构为公有云大模型推理池的精细化资源调度提供了底层支撑。

本次移动云与华为昇腾的联合技术测评，不仅系统性验证了“大EP+PD分离”架构在差异化场景中的效能表现，更沉淀出可复用的标准化评估体系。依托这一成果，移动云将持续迭代公有云大模型推理池技术架构，推出更具性价比的产品，加速推动大语言模型规模化落地。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/90319.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/90319.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！