云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项

引言

为认真落实工信部《工业和信息化部办公厅关于印发信息通信网络运行安全管理年实施方案的通知》,2025年5月30日中国信息通信研究院于浙江杭州举办了“云服务运行安全高质量发展交流会”,推动正向引导,巩固云服务安全专项治理成果。会上,阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。此次双料荣誉标志着洛神在我国运行安全领域的技术实力与行业贡献获得权威认可。

在这里插入图片描述
国家“十四五”规划明确提出了“上云用数赋智”行动,数字经济的转型需要加速上云,而云网络则是支撑普惠上云,实现万物互联的关键。在过去十年间,云网络高速增长,企业上云规模的高速增长给云厂商带来高收益的同时,也对云厂商的技术能力提出了全新的挑战。阿里云云网络团队经过“十年磨一利剑”实现了全面自研的云网络操作系统-洛神,满足了“大规模、多租户、高弹性”的网络性能需求。
在满足网络性能需求的同时,云网络的运行管理面临着百万级设备规模、秒级故障发现以及异构设备应急等现实挑战。为此,云网络历经十年,将数据存储、分析处理、建模推理三大网络数据管理技术融合,对设备变更、网络监控以及故障处置三大运行管理场景进行一体化建设,突破了大规模云网络运行管理的四大核心技术,研制了超大规模云计算网络一体化运行管理平台一齐天。本文将为您揭秘洛神云网络的核心子系统-齐天,介绍其是如何保障超大规模云网络的运行安全。

核心挑战

云网络作为云上万物互联的基础底座,为了确保云网络的安全运行,云网络需要一套大规模运行管理系统。整套系统由三大核心运行管理场景以及一套网络数据系统组成,其中三大核心运行管理场景包括设备变更、网络监控以及故障处置,而网络数据系统为三大场景提供了运行管理决策所需要的数据。
图 1 大规模云网络运维系统面临的挑战
随着“万物上云”时代的到来,云网络的运行管理面临了以下四个方面的核心挑战:
1、管理决策对海量数据的要求与成本控制之间的矛盾。
超大规模的云网络设备产生了海量的运行数据,一方面管理决策需要精细数据支撑,另一方面细粒度的数据带来的极高的计算、存储以及查询成本,如何兼顾决策的诉求以及数据的成本是大规模云网络运行管理需要克服的第一个挑战。
2、百万级的设备规模与有限人力间的矛盾。随着云网络规模的发展,
网络设备从十万级上升到百万级,租户实例从百万级上升到千万级,带来了极大的人力开销,且在数字化转型过程中会进一步加剧。
3、高动态的网络拓扑与高实时监控要求间的矛盾。
云网络是一张高动态的网络,租户通过 OpenAPI 进行每小时近百万次的网络修改,现有网络监控技术的监控策略难以匹配这种超高频的变化,导致监控结果迟滞。
4、强异构多平面的设备形态与高效率全链路的异常检测及恢复间的矛盾。
云网络内部由大量形态异构、功能异构的设备组成,运行过程中出现异常严重依赖不同设备的专家工程师人工排查及处置,排查效率低故障恢复慢。

关键技术

为了解决这些挑战,齐天采用“数智融合,运维一体”的思路,通过将数据存储、分析处理、建模推理三大数据管理技术融合;升级维护、网络监控、故障应急三大运维场景一体建设的方式研制了数智融合的一体化大规模云网络运维系统,系统整体架构如图2所示。
图 2 数智融合的一体化大规模云网络运维系统
系统整体包含数据管理、升级维护、网络监控以及故障应急四个核心模块,其中数据管理模块是运维系统的核心数据底座,支撑上面的不同运维场景;升级维护虽然是网络运维中的常规动作,受益于洛神云网络的SDN架构以及租户对于云网络功能需求的日益增加,云网络软硬件设备经常处于高频的升级变更过程中,因此齐天研发了无人值守的变更框架来解决云网络高频变更过程中的各类挑战;网络变更完成后,网络监控模块需要对变更后的云网络进行全面的监控来发现网络可能的异常状态;当监控系统发现异常后,为了尽可能降低租户受到网络异常的影响,齐天研发了全链路网络自愈技术来进行快速的故障应急。下面将分小节对每个核心技术模块进行深度介绍。

  1. 数智融合的高性能网络运维数据管理技术
    针对管理决策对海量数据的要求与成本控制间的矛盾,齐天通过数智融合的高性能网络运维数据管理技术,将海量多模态的网络数据统一存储,基于云原生的无状态分析引擎进行高性能处理,从时空多维度进行网络知识建模,实现了 PB 级海量多模态网络数据的高效率存储,千万级虚拟网络资源的批量建模以及毫秒级高性能网络数据分析。
    基于该技术,齐天针对网络运维数据的查询性能提升 50% 以上、单平台数据存放规模可达 PB 级、无状态分析引擎每秒实现 300 万条流式数据处理、网络对象知识节点数超1000万个,为各种运行管理决策提供了基础知识模型。
  2. 多租户动态编排的无人值守网络变更技术
    针对百万级的设备规模与有限的人力间的矛盾,齐天设计并研发多租户动态编排的无人值守网络变更技术,通过面向多租户的超高维度动态任务编排、基于微集群高速缓存的高性能任务下发以及主被协同的多指标结果评估算法来实现百万级网络设备的无人化零损变更,极大地提升了管理效率,降低了人力投入。
    图 3 CloudPlanner : Minimizing Upgrade Risk of Virtual Network Devices for Large-Scale Cloud Networks(IEEE INFOCOM 2024)
    通过无人值守网络变更技术,齐天实现了全网千万级的租户维度指标预测及拟合建模,变更影响范围相比之前缩小 90%,变更触发网络故障减少 50%,变更异常的影响时长缩短 45%。
  3. 意图感知的自适应高精度网络监控技术
    针对高动态的网络资源与高实时的状态监控间的矛盾,齐天提出了以基于用户意图的虚拟网络测量技术为基础,通过机器学习对网络测量数据进行智能预测,从而实现高敏高精网络预警的能力,将网络的监控精度提升到报文级,时间精度提升到毫秒级,流量监控提升到实例级,预警精度提升到用户级,克服了由于多租户高动态给监控的精度和准确性带来的挑战。
    图 4 Zoonet: A Proactive Telemetry System for Large-Scale Cloud Networks(ACM CoNEXT 2022)
    基于高精度网络监控技术,齐天覆盖率全网千万级的访问路径,采集精度提升到毫秒级,算法召回率达 93%,大幅提升阿里云网络预警能力。
  4. 基于多平面异常检测的全链路自愈技术
    针对强异构的网络设备与高效率的异常检测及恢复间的矛盾,齐天创新性地提出了基于多平面异常检测的全链路自愈能力,综合利用形式化验证以及可视化诊断来实现网络异常的全链路检测,通过对检测结果训练建设网络异常库,从而实现异常的快速分类和定位。针对大流量异常,采用可编程网卡辅助的流量反压实现快速自愈;针对分布式设备异常,采用软件调控流量调度的方式进行快速逃逸。
    图 5 CloudSentry: Two-Stage Heavy Hitter Detection for Cloud-Scale Gateway Overload Protection(IEEE TPDS 2023)
    全链路自愈技术覆盖了物理层、虚拟层、租户层三个网络平面,异常误报率下降 90%,故障处理时长缩短至分钟级,大幅提升了网络异常的决策和处置效果。

总结展望

经过近十年的发展,齐天已经在阿里云大规模商业化应用,管理着千万级的网络实例,为阿里云数百万客户提供了高质量的网络服务,护航了二十大会议、建党100周年活动、巴黎奥运等国内外重大国事。齐天自主研发的数智融合的高性能网络运维数据管理技术、多租户动态编排的无人值守网络变更技术、意图感知的自适应高精度网络监控技术、基于多平面异常检测的全链路自愈技术等整套成果获得授权发明专利40余项,发表国际高水平论文20余篇。经国际权威评测机构Gartner 2021年评测,基于齐天构建的NIS产品是全球唯一获得网络性能可视化能力评分的云网络产品。
面向未来,齐天将持续深化"数智融合、运维一体"战略布局,以构建新一代智能云网络为目标,通过AI与网络运维的深度协同,聚焦自进化网络架构与意图网络引擎等领域,力争打破传统被动响应模式,打造具备闭环自治能力的智能网络体系,实现全网状态实时感知与动态调优,让用户业务需求到网络策略能够智能转化,最终形成从环境感知、故障预判到策略生成、自主执行的完整决策闭环。
齐天矢志成为智能时代的网络基础设施革命者,让每一比特数据流动皆创造价值。我们将持续践行“让网络更简单”的使命,推动云网络运维技术的创新发展,追求更高的网络稳定性、更好的用户体验、更低的运维成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

刀客doc:WPP走下神坛

一、至暗时刻? 6月11日,快消巨头玛氏公司宣布其价值17 亿美元,在全球70个市场的广告业务交给阳狮集团,这其中包括M&Ms、士力架、宝路等知名品牌。 此前,玛氏公司一直是WPP的大客户。早在今年3月,WPP就…

进行性核上性麻痹饮食攻略:营养安全双护航

进行性核上性麻痹是一种罕见的神经系统退行性疾病,主要影响患者的运动、平衡和吞咽功能。除了医学干预,科学的饮食管理也能在一定程度上减轻症状,提高生活质量。 由于患者常出现吞咽困难,食物质地的选择尤为重要。应避免干硬、大块…

阿里云可观测 2025 年 5 月产品动态

本月可观测热文回顾 文章一览: StoreView SQL,让数据分析不受地域限制 不懂 PromQL?AI 智能体帮你玩转大规模指标数据分析 DeepWiki LoongCollector:AI 重塑开源代码理解 从 o11y 2.0 说起,大数据 Pipeline 的「…

React 基础状态管理方案

1. useState useState 是 React 提供的最基本的 Hook,用于在函数组件中添加状态管理。它返回一个状态变量和一个更新状态的函数。 1.1. 使用场景 适合管理简单的状态。 适合管理组件内部的局部状态。 1.2. 示例代码 import React, { useState } from react;function Cou…

VScode中如何创建项目分支

在 VS Code 中为前端项目创建自己的分支是一个常见的开发实践,以下是详细步骤: 前提条件 已安装 Git已安装 VS Code已有前端项目或克隆了远程仓库 创建分支步骤 1. 打开项目 在 VS Code 中打开你的前端项目文件夹。 2. 初始化 Git 仓库&#xff08…

Flutter 导航与路由管理:Navigator 的深入解析与实践

在移动应用开发中,页面导航是用户体验的核心组成部分。Flutter 提供了强大而灵活的导航系统,主要通过 Navigator 组件来实现。本文将全面介绍 Flutter 中 Navigator 的使用方法,涵盖基础导航操作、进阶技巧以及最佳实践。 一、Flutter 导航系…

预测性去匿名化攻击(PDAA):重塑数据安全攻防边界

一、数据合规时代的“脱敏”悖论:价值释放与风险并存 在数据驱动的商业模式与日趋严格的个人信息保护法规(如《个人信息保护法》《数据安全法》)双重推动下,企业普遍将“数据脱敏”作为实现数据合规与价值释放的核心手段。对手机…

[python] 使用python设计滤波器

使用python设计滤波器 文章目录 使用python设计滤波器完整滤波器设计代码(未经完整验证,博主还在不断完善中)关键原理与代码对应说明1. 滤波器类型选择2. 阶数估算原理3. 性能分析技术4. 设计参数调整指南 习惯了python后,matlab逐…

mac电脑.sh文件,用来清除git当前分支

#!/bin/bashecho "正在检查Git仓库..." if ! git rev-parse --is-inside-work-tree >/dev/null 2>&1; thenecho "错误:当前目录不是Git仓库!"exit 1 fiecho "警告:这将丢弃所有未提交的更改和本地提交&am…

Bash (Bourne Again SHell)

Unix/Linux 系统中最常用的命令行解释器之一,它是原始 Bourne shell (sh) 的增强版本。以下是 Bash 的详细解释: 1. Bash 基础 1.1 什么是 Bash 一个命令行解释器,用于执行用户输入的命令支持脚本编程,可以编写复杂的自动化任务…

uni-app学习笔记三十五--扩展组件的安装和使用

由于内置组件不能满足日常开发需要,uniapp官方也提供了众多的扩展组件供我们使用。由于不是内置组件,需要安装才能使用。 一、安装扩展插件 安装方法: 1.访问uniapp官方文档组件部分:组件使用的入门教程 | uni-app官网 点击左侧…

AIStor 的模型上下文协议 (MCP) 服务器: 工作原理

在本系列的前几篇博文中,我们讨论了MinIO AIStor 模型上下文协议 (MCP) 服务器的用户级和管理员级功能。在第一篇博文中,我们学习了如何查看存储桶的内容、分析对象并标记它们以便将来处理。在第二篇博文中,我们还学习了如何使用管理员命令以…

Excel 怎么让透视表以正常Excel表格形式显示

目录 1、创建数据透视表 2、设计 》报表布局 》以表格形式显示 3、设计 》分类汇总 》不显示分类汇总 1、创建数据透视表 2、设计 》报表布局 》以表格形式显示 3、设计 》分类汇总 》不显示分类汇总

汇编语言深度指南:从基础到字符串操作

基础知识 CPU简介 CPU是计算机的核心,负责: 执行机器指令:解码并执行二进制指令 mov eax, 5 ; 将值5移动到EAX寄存器暂存少量数据:通过内部寄存器快速存取访问存储器:读写内存数据 mov [0x1000], eax ; 将EAX值…

树莓派5-ubuntu 24.04 安装 ros环境

在开始安装ros环境前,需要确保已经准备好了以下操作 1.树莓派5开发板,已经烧录了 ubuntu 24.04,并做好了一些基础配置,如:远程访问配置,语言配置,网络配置等 2.新手建议在上面安装一个宝塔面板…

【狂飙AGI】第2课:大模型方向市场分析

目录 (一)产业规模(二)政策引导(三)人才需求(四)工作年限(五)年薪分析(六)薪资情况分析(七)地域及匹配薪资&am…

word用endnote插入国标参考文献

1.在endnote中先设置output style为我的GB格式 参考 Endnote使用——参考文献的插入及引用_endnote怎么引用参考文献-CSDN博客 已经修改好的GB导出格式:Chinese Std GBT7714 (numeric)-spx.ens Peixuan Shu/Chinese_Std_GBT7714 - 码云 - 开源中国 把这个style…

Peiiieee的Linux笔记(1)

基本指令 1. ls指令 语法:ls [选项][目录或文件] 功能:对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及其它信息。 -a:列出目录下的所有文件,包括以.开头的隐含文件。 -l&am…

Docker快速构建并启动Springboot程序,快速发布和上线/

Docker部署SpringBoot 1.工作木目录:/mnts/jar_work/vx_kefu/ruoyi_ruoyiwechatinfo 里面的目录是lib文件夹,logs文件夹,Dockerfile文件,SpringBoot的jar包,start.sh的命令,stop.sh的命令,tpid文件进程。 …

RT-Thread Studio 配置使用详细教程

文章目录 一、新建工程1.1 创建基于芯片的工程1.1.1 选择创建的rtt版本1.1.2 配置工程基本属性1.1.3 初创工程目录结构1.1.4 修改时钟配置1.1.5 配置调试下载器 1.2 创建基于开发板的工程 二、配置内核三、配置组件四、配置软件包五、适配配置六、其它问题 一、新建工程 1.1 创…