vRDMA 发布,助力云上 VPC 内高性能通信

资料来源:火山引擎-开发者社区
近日,火山引擎基于部分云服务器实例规格邀测发布 vRDMA 特性,提供云上 VPC 内大规模 RDMA 加速能力,可兼容传统 HPC 应用、AI 应用以及传统 TCP/IP 应用,降低大众化场景的适配门槛,让更多的应用可以体验到更好的上云性能。
传统的 TCP/IP 传输,在传输数据时需要经过多层协议的封装和解封,且需要通过内核进行处理,涉及多次数据复制和上下文切换,存在较多的局限性,无法满足对网络性能要求极为严苛的场景,如高性能计算、模型推理、机器学习、大数据传输等领域。
RDMA 技术的出现以及被广泛应用,得益于其相较于传统的 TCP 网络通信协议的显著优势。RDMA 打破了传统的分层架构,允许应用程序直接访问远程计算机的内存,无需经过操作系统内核和协议栈的多次数据拷贝和处理,实现了内存到内存的直接数据传输,大大减少了数据处理的中间环节,延迟可降低至微秒级。
火山引擎过去已在高性能计算 GPU 型实例上提供 RDMA 通信能力,对 RDMA 使用场景也进行了诸多产品支持,详情可见:

  • 在机器学习平台上通过 RDMA 网络加速训练:https://www.volcengine.com/docs/6459/96563
  • 在 VKE 集群中使用 RDMA 资源:https://www.volcengine.com/docs/6460/1125782


但是,RDMA 依赖于网络的无损特性、运维成本与使用成本较高,且传统的网络隔离机制将 RDMA 通信限制在单一集群内,导致应用范围受限。因此,出于对成本效益及适配多样化场景的考虑,如何“使 RDMA 协议运行在云上 VPC 内,同时具备无限接近物理网络的性能表现”成为火山引擎的演进方向,vRDMA 应运而生。
什么是 vRDMA
vRDMA 是火山引擎自研的云上弹性 RDMA 网络,将 RDMA 技术应用到了 VPC 网络中。与传统需配备单独硬件网卡的 RDMA 不同,vRDMA 依附于 VPC 内的弹性网卡 ENI。用户仅需为实例挂载开启了 vRDMA 的弹性网卡,便可在不改变原有业务组网的情况下激活 RDMA 通信能力,且无需额外付费。
vRDMA 底层搭配全栈自研的拥塞控制 CC(Congestion Control)算法,可以容忍 VPC 网络中的延迟、丢包等问题,在有损的网络环境中依然有良好的性能表现。同时可以复用 VPC 网络的隔离性进行安全通信,在享有传统 RDMA 网络高吞吐、低延迟特性的同时,突破集群限制,支持更高的弹性扩展,实现秒级的大规模 RDMA 组网。


当前,vRDMA 已在部分实例规格上启动邀测。用户使用支持的公共镜像或自行安装火山引擎提供的 vRDMA 驱动即可使用。ECS 实例可通过开启了 vRDMA 的弹性网卡同时进行 RDMA 与 TCP/IP 协议通信,二者共享实例网络带宽。


技术优势

  • 高性能:vRDMA 将 RDMA 技术应用到 VPC 网络中,使弹性网卡具有 RDMA 特性(低 CPU 负载、低网络延迟)。您可以在云网络环境中体验到 vRDMA 带来的出色性能,获取与物理 RDMA 一致的性能体验。
  • 共享 VPC 网络:vRDMA 功能完全复用 VPC 网络,可以在原来的业务组网架构下直接启用 RDMA 功能,无需再区分 VPC 弹性网卡与 RDMA 网卡,使用更加灵活便捷。
  • 兼容性:支持标准的 Verbs 以及大部分 Infiniband 通信语义,支持业内主流通信库及中间件,无需对原有的应用程序进行大规模的修改,降低技术升级和迁移成本。
  • 弹性扩展:不同于传统的 RDMA 需要单独的硬件网卡,vRDMA 依附于弹性网卡,您可以随时创建支持 vRDMA 属性的弹性网卡并绑定到实例,轻松实现弹性扩展,满足不同场景下对网络功能的动态需求。
  • 隔离性:vRDMA 能够与传统 TCP/IP 共享实例带宽。通过对交换机共享缓存的合理配置以及队列配置,实现了 vRDMA 和 TCP/IP 在交换机上的 buffer 和流量隔离。通过 vQos 和多级 Meter 能力,支持 vRDMA 和 TCP/IP 出入向的流量细粒度隔离。
  • 大规模组网:传统 RDMA 基于无损网络,规模部署成本高且困难。vRDMA 仅依赖有损的以太网络,同时结合自研的拥塞控制 CC 算法、网卡上的 TX window 和 Adaptive retransmission 的特性,在大规模、跨集群、长距离通信场景下能够提供高性能的网络服务。

性能表现
得益于自研高性能拥塞控制算法、自研高性能 vSwitch 等软硬件一体化技术栈,火山引擎 ECS 实例的 vRDMA 带宽最高可达 320Gbps,极限时延可低至 5us,每秒消息数最高可达 50M。
平均时延和长尾时延性能是衡量云网络的重要指标之一,直接影响了网络通信的实时性和响应性,对于分布式文件系统、大模型推理、HPC 超算等业务场景尤为重要。vRDMA 的平均传输延迟仅为基于 Kernel TCP/IP 的1/5,平均传输时延可降低 80%,长尾传输时延可降低 99%。
单连接吞吐是指在网络通信过程中,单个连接在单位时间内传输的数据量。对于分布式文件系统、大模型训练等大象流业务场景尤为重要。vRDMA 单 QP 的带宽对比基于 Kernel TCP/IP 单连接,带宽可提升至 300%。


最佳实践
vRDMA 能够大幅降低大规模集群网络互联带来的网络通信延迟,大幅提升分布式计算的性能和性价比,可以在多领域多业务场景中得到应用:

  • 分布式存储:受 GPU 计算集群的软硬件故障等客观因素影响,大模型训练中断后基于 checkpoint 的恢复,依赖高性能的分布式存储服务。计算节点与存储服务之间可以通过 vRDMA 实现高性能通信,同时 VPC 网络也可以为模型算法、用户数据、训练数据等提供安全隔离的能力。在分布式文件系统存算通信场景下,vRDMA 对比 Kernel TCP/IP 全透读场景读带宽可提升 35%,全命中场景读带宽可提升 60%。
  • 大模型推理:大模型 PD 分离推理架构中,由于 Prefilling 阶段与 Decoding 阶段分别属于计算密集型与访存密集型,一般可选用不同的机型。PD 异构集群之间使用 vRDMA 通信可以加速 KV Cache 传输,充分利用不同 GPU 的特点,实现高效、快速的模型推理,提升推理系统整体的吞吐并降低延迟。在 LLM 大模型推理场景,Second Token 以及 TPOT 长尾时延,vRDMA 对比 Kernel TCP/IP 可下降 50%。
  • 高性能计算:越来越多的HPC类业务逐步从自建数据中心迁移到公有云,如工业仿真场景,在依赖 RDMA 协议进行高带宽、低延时通信的同时,可以借助 vRDMA 提升部署的灵活性并降低资源使用成本。在传统 HPC 高性能计算场景,LS-DYNA 和 Star-CCM 的 2 节点线性度,vRDMA 对比 Kernel TCP/IP 可提升 30%,并且可支持更大节点数的并行计算能力。


结语
火山引擎 vRDMA 相关技术的论文已经被 ACM SIGCOMM 2025 主会接收,SIGCOMM 是 ACM 组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率低于 20%。此外,火山引擎自研拥塞控制算法论文已经被 CCF A 类会议 ATC 2025 主会接受,ATC 是计算机系统领域的顶级会议,ATC 2025 会议录用率低于 16%。更多关于火山引擎 vRDMA、自研拥塞控制算法的技术细节我们将会持续披露。
未来,火山引擎会将 vRDMA 建设为云上高性能网络通信的通用能力,逐步覆盖到更多云服务器实例规格。同时持续完善 vRDMA 生态建设,结合火山引擎自研传输层优化技术、自研高性能集合通信库,不断探索未来 RDMA on VPC 演进路线,让 RDMA 网络从支撑小众的 AI 与 HPC 类应用,走向支持通用类计算场景,持续提升火山引擎的网络技术竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/911918.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/911918.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Win10安装dify

一、win10虚拟化设置,控制面板中开启如下三个服务 二、检查确认wls服务开启 设置自动启动并启动 确认服务开启 bcdedit 是否为auto,如果不是,设置为auto bcdedit /set hypervisorlaunchtype autocpu是否为虚拟化 更新wsl wsl --update二 …

【ai学习笔记】GitLab

CI/CD(持续集成/持续交付)是现代软件开发中的关键实践,通过自动化工具可以大幅提升开发效率和软件质量。下面为你介绍CI/CD的核心概念、常用工具以及示例配置: 1. CI/CD 核心概念 持续集成(CI)&#xff1…

Solidity 从 0 到 1 |Web3 开发入门免费共学营

开启你的 Web3 开发之旅,从 Sonic 开始! 想进入区块链开发的世界,却不知道从哪里开始?选择对的语言和平台,才能事半功倍。 Solidity 是 Web3 中最主流、最通用的智能合约开发语言,被广泛应用于以太坊及其…

【unitrix】 4.4 类型级整数比较系统(cmp.rs)

一、源码 这段代码实现了一个类型级别的整数比较系统,允许在编译时进行整数比较操作。它定义了一套类型来表示比较结果,并为不同类型的整数实现了比较逻辑。 use core::cmp::Ordering; use core::default::Default; use crate::sealed::Sealed; use cr…

2025年渗透测试面试题总结-2025年HW(护网面试) 14(题目+回答)

安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 1. SQL注入原理 💥 2. XXE攻击(XML外部实体注入) 🧩 3. SQ…

Android开发根据滑动距离标题栏进行渐变

Android开发根据滑动距离标题栏进行渐变 假设滑动控件是NestedScrollView。 先监听NestedScrollView的滑动距离: nslv_preview_me.setOnScrollChangeListener(object :NestedScrollView.OnScrollChangeListener{override fun onScrollChange(v: NestedScrollView…

高中成绩可视化平台开发笔记

高中成绩可视化平台(1) 一、项目概述 本系统是一个基于 PyQt5 和 Matplotlib 的高中成绩数据可视化分析平台,旨在帮助教师快速了解学生成绩分布、班级对比、学科表现等关键指标。平台支持文科与理科的数据切换,并提供多个维度的图…

自动化按需导入组件库的工具rust版本完成开源了

背景 当我为每个Vue项目使用ui组件库的时候,都会使用按需导入的方式来使用ui组件库。但是每次按需导入,不可避免的就需要做以下三步。我们以element plus ui组件库为例。 1. 安装依赖 第一步,当然是需要安装依赖。命令如下: pnpm add unp…

Linux内核中TCP分段的核心机制:tcp_fragment函数解析

引言:TCP分段的必要性 在TCP/IP协议栈中,MSS(最大分段大小) 限制了单次传输的数据量。当应用层发送的数据超过当前路径的MSS时,内核必须执行分段操作。tcp_fragment函数正是Linux内核中处理TCP分段的核心机制,它巧妙地在协议合规性、内存安全和性能效率之间取得平衡。 一…

【赵渝强老师】OceanBase OBServer节点的SQL层

OceanBase OBServer节点的SQL层将用户的SQL请求转化成对一个或多个Tablet的数据访问。SQL层会按照以下顺序经过一系列组件来处理一个SQL: Parser -->Resolver-->Transformer-->Optimizer-->CodeGenerator-->Executor。视频讲解如下 【赵渝强老师】O…

从“高配”到“普惠”,黑芝麻智能携手Nullmax打造辅助驾驶主流量产方案

近日,黑芝麻智能携手Nullmax打造的辅助驾驶主流量产方案正式发布。该方案面向8-15万元级别主流车型,基于单颗黑芝麻智能武当C1236跨域计算芯片,集成Nullmax全栈自研的软件技术架构,结合领先的视觉感知算法,打造高性能辅…

信息安全认证体系全解析:从资质证明到行业准入的实践指南

Hello!大家好,小编是一名专注IT领域的资深探索家,大家发现了吗?现在刷招聘软件,国企安全岗必标 "CISP 优先",外企招聘悄悄写着 "CISSP 加分"—— 这些带字母的证书到底是啥&#xff1f…

优雅地创建实体类——Builder 链式调用

我们来看以下的代码。改造前构造实体类用重载构造器或用 setter 对变量进行赋值,一旦变量变多则需要对每个变量进行 set 赋值,并且有可能会赋值错对象。 private static void test() {//1.构造器赋值Task task1 new Task("2023000000009439"…

如何轻松将照片从 iPhone 传输到 Android?

从 iPhone 换到 Android 手机后,你肯定不想丢掉珍贵的照片回忆吧?好在,本文分享了 6 种有效的解决方案,教你如何轻松地将照片从 iPhone 传输到 Android。 第 1 部分:如何通过 iReaShare Phone Transfer 将照片从 iPhon…

AI编程:[体验]存量微服务架构下植入WebSocket的“踩坑”与“填坑”

一、核心需求 功能需求:用户可以通过语音与AI对话,并实现类似ChatGPT的实时交互(流式响应,打字机效果)技术需求:在现有微服务架构中进行扩展(SpringCloud) 二、技术盲点 陌生领域 …

uniapp事件onLoad区分大小写

区分大小写。不然会不起作用。onLoad方法中的功能均不会被执行。 除了功能逻辑要检查外。大小写是要认真检查的一部分

《打破微前端困局:样式冲突与资源隔离破局指南》

微前端架构凭借其独特优势,正逐渐成为众多大型项目的首选架构模式。它将一个庞大的前端应用拆解为多个相对独立的子应用,每个子应用可以独立开发、部署和维护,极大地提升了开发效率与团队协作的灵活性。然而,随着微前端架构的广泛…

OpenCV——边缘检测

边缘检测 一、边缘检测二、边缘检测算子2.1、Sobel算子2.2、Scharr算子2.3、Laplacian算子 三、Canny边缘检测3.1、Canny边缘检测的步骤3.2、Canny算法的实现 一、边缘检测 边缘是指图像中像素的灰度值发生剧烈变化的区域: 图像中的边缘主要有以下几种成因&#x…

2506认证资讯|工信部出手整治多品牌充电宝,WMC上海稍逊往年,RED修订Common Charger,WiFi7 FCC测试

01 — 中国 工信部拟制定移动电源强制性国家标准 该标准将从以下方面全面提升移动电源安全性: 1. 拟在GB 31241、GB 4943.1基础上,新增或加严过充电、针刺等试验要求。 2. 拟提出影响电池安全的正负极材料、隔膜等关键材料要求。 3. 拟规范锂离子电池…

Linux Regulator 子系统核心逻辑与关键问题全解析

Linux Regulator 子系统核心逻辑与关键问题全解析 一、什么是 regulator 子系统?核心作用? regulator 子系统是 Linux 内核为板级/SoC 多路可控电源设计的统一电源管理框架。它的主要作用是: 为每一路可控电源(Buck、LDO、DCDC …