UFO²:微软推出的新一代桌面 Agent 操作系统,深度整合 Windows 与智能自动化

本文转载自:https://www.hello123.com/ufo²

**

微软UFO²相关图片

一、微软 UFO²:Windows 桌面智能体操作系统的革新与实战解析

💻 微软 UFO²(Unified Functional Optimization Operating System)是微软在 2025 年对其开源智能体系统 AgentUFO 的重大升级版本,它被设计为一个深度集成于 Windows 操作系统的多智能体代理操作系统(AgentOS)。UFO² 的核心目标是突破传统自动化工具的局限,通过自然语言驱动、多应用协同和智能化的任务执行,彻底改变用户与计算机交互的方式,引领桌面自动化进入 “AgentOS 时代”。

微软 UFO² 开源项目官方地址

一、核心功能亮点

UFO² 不仅仅是一个自动化工具,更是一个深度融合操作系统能力的智能平台。它通过一系列创新功能,显著提升了任务执行的效率和可靠性。

1.1、自然语言解析与多智能体协作

UFO² 的核心是其多智能体架构HostAgent 作为 “大脑”,负责解析用户的自然语言指令,并将其智能拆解成有序的子任务。然后,它会协调一系列专门的 AppAgent 来执行这些任务,每个 AppAgent 都像是某个特定应用程序的 “专家”,拥有其深度的 API 知识和交互能力。这种设计使得跨应用的复杂工作流协调成为可能,例如,它可以轻松处理 “从 Outlook 附件中提取 Excel 数据,分析后并将图表插入 PowerPoint” 这类指令。

1.2、统一的 GUI-API 混合执行模式

这是 UFO² 的一大技术创新。它通过一个名为 Puppeteer 的统一接口,智能地决定是调用应用程序的原生 API 还是模拟 GUI 操作。对于标准且高效的操作(如在 Excel 中通过 API 直接生成图表),它会优先调用原生 API,其执行效率远超传统 RPA 的模拟点击;而对于那些没有 API 或 API 不可用的操作,则无缝切换至基于 GUI 的自动化。这种混合模式极大地增强了任务的鲁棒性和执行速度,降低了对界面变化的敏感性。

1.3、混合控件感知技术

为了在各种界面环境下都能可靠地 “看见” 和识别控件,UFO² 融合了Windows 原生的 UI Automation (UIA) API和先进的视觉识别模型 OmniParser-v2。UIA 可以精准获取标准控件的丰富元数据,而 OmniParser-v2 则能有效识别那些自定义、非标准的 UI 元素。两者结合,再通过基于边界框的去重算法进行融合,最终形成一个统一的、全面的控件视图,为后续的准确操作打下了坚实基础。

1.4、持续的知识集成与增强

UFO² 具备 “持续学习” 的能力。它采用检索增强生成(RAG)技术,动态地整合外部应用文档、更新日志以及历史执行的成功经验。这意味着当应用程序更新或出现新功能时,UFO² 能够通过查询其知识库快速适应变化,而无需等待系统级的重新训练或更新,从而越用越聪明。

1.5、推测式多步执行

为了减少与大语言模型(LLM)的交互次数,降低延迟和计算成本,UFO² 引入了推测式多步执行机制。智能体可以一次预测多个后续操作步骤,然后通过轻量级的 UI 状态校验来逐步执行和验证。这项技术最高可减少 51.5% 的 LLM 调用次数,显著加快了任务响应速度。

1.6、画中画(PiP)虚拟桌面执行环境

UFO² 引入了极具实用性的画中画模式。它利用 Windows 自带的远程桌面服务,创建一个轻量级、隔离的虚拟桌面环境。所有的自动化任务都在这个 “沙盒” 中运行,与用户的主桌面完全分离。用户可以在主桌面上继续正常工作、娱乐,完全不受自动化任务干扰,从根本上解决了传统自动化工具 “霸占” 屏幕和输入设备的问题,同时增强了安全性和用户体验。

二、性能表现与实测数据

根据微软团队在 2025 年进行的严格基准测试,UFO² 在超过 20 款主流 Windows 应用程序(如 Excel、Outlook、Edge 等)中展现了卓越的性能:

  • 成功率显著领先:在 WAA 测试集中,UFO²(使用 o1 模型)的任务成功率达到30.5%,远超 OpenAI Operator 的 20.8%;在更具挑战性的 OSWorld-W 测试集中,UFO² 成功率更是达到32.7%,对比 Operator 的 14.3%,优势明显。
  • 执行效率更高:在 OSWorld-W 测试中,UFO² 平均只需约 5.5 步即可完成一个任务,步骤更为精简,效率更高。
  • 复杂场景处理能力更强:在跨应用任务中,UFO² 取得了9.1%的成功率,展现了其优异的协同能力。在面对非标准界面时,其混合控件检测机制也表现出更强的适应性和稳定性。

三、典型应用场景

UFO² 的潜力在各种需要自动化与智能辅助的场景中都能得到发挥:

  • 企业办公自动化:自动完成跨 Excel、Outlook、Word 和浏览器的数据整理、报告生成和邮件发送等复杂工作流。
  • IT 运维与管理:自动化软件部署、系统配置检查、日志收集与分析等任务,减轻运维人员负担。
  • 数据分析与处理:自动从多个数据源提取信息,进行清洗、分析并在 Power BI 等工具中生成可视化图表。
  • 客户服务与支持:快速诊断常见问题,例如自动识别系统错误代码并提供初步解决方案。
  • 开发与测试:辅助开发者完成环境搭建、代码构建、基础测试用例执行等重复性工作。
  • 教育培训:通过自然语言创建沉浸式的软件操作教学演示,降低学习门槛。

四、UFO² 深度评测与竞品对比

2025 年的桌面自动化领域,UFO² 作为一个系统级解决方案脱颖而出。它与传统 RPA 和新兴的 LLM 驱动智能体相比,有其独特优势和面临的挑战。

4.1、产品评测:优势与不足

核心优点:

  1. 系统级深度集成:与 Windows 原生 API、COM 组件及 UIA 的无缝结合,使其执行效率、精准度和可靠性远超传统基于图像识别和模拟点击的自动化工具。
  1. 混合执行范式:GUI 与 API 的智能动态选择是其核心竞争力,既能享受 API 的高效精准,又保留了 GUI 操作的通用性,应对复杂场景的能力更强。
  1. 非干扰式用户体验:画中画虚拟桌面功能是用户体验上的一次飞跃,彻底解决了自动化任务与用户操作之间的冲突,实用价值极高。
  1. 模块化与可扩展性:多智能体(HostAgent+AppAgents)架构设计清晰,允许为每个应用深度定制和优化,也便于社区和开发者贡献新的 AppAgent。
  1. 推测执行降低延迟:有效减少 LLM 调用次数,提升了响应速度并降低了使用大模型的成本。

主要缺点:

  1. 平台锁定:目前深度绑定 Windows 生态系统,对于 macOS 或 Linux 用户而言无法使用,限制了其应用范围。
  1. 学习与配置成本:虽然支持自然语言,但要实现复杂、可靠的自动化流程,可能仍需一定的技术背景和理解成本,对普通用户可能存在上手门槛。
  1. 早期阶段生态:尽管开源并吸引了大量关注,但其围绕 AppAgent 的生态系统(可用 AppAgent 的数量和质量)仍处于建设初期,不及一些成熟 RPA 厂商的组件库丰富。
  1. 性能依赖:其性能部分依赖于所集成的大语言模型(如 GPT-4o),模型本身的推理速度、成本和可用性可能会影响整体体验。

4.2、竞品对比分析

在 2025 年,UFO² 面临的主要竞品可分为传统 RPA 巨头和新兴 AI 智能体两类。

维度

微软 UFO²

传统 RPA (如 UiPath, Power Automate)

新兴 AI 智能体 (如 OpenAI Operator)

核心原理

系统集成 + 多智能体 + LLM

脚本录制 / 编排 + 选择器定位

多模态 LLM + 视觉识别

执行方式

GUI 与 API 智能混合

主要依赖 GUI 自动化,API 需单独配置

主要依赖纯视觉 GUI 操作

优势

高效、精准、非干扰、高鲁棒性

组件丰富、企业级功能、生态成熟

灵活性高、通用性强(理论上跨平台)

劣势

Windows 绑定、生态初建

脆弱(界面易变)、维护成本高

延迟高、可靠性相对较低、干扰用户

适用场景

Win 平台复杂、长周期任务

稳定环境下的固定流程

简单、临时的跨平台任务

简要分析:

  • 与传统 RPA(UiPath, Automation Anywhere, Microsoft Power Automate)相比:UFO² 通过 AI 和系统集成解决了传统 RPA 最根本的 “脆弱性” 和高维护成本问题。传统 RPA 在流程固定、环境稳定的企业中仍有价值,但在需要适应性和智能化的场景下,UFO² 代表了下一次技术飞跃。
  • 与新兴 AI 智能体(OpenAI Operator)相比:Operator 等方案展现了 LLM 在理解自然语言和界面方面的强大通用性,但其纯视觉方式在可靠性、执行速度和用户体验(干扰问题)上存在明显短板。UFO² 通过深度操作系统集成,在可靠性和效率上取得了实质性突破,但其代价是牺牲了跨平台性。

总结而言,UFO² 在 Windows 平台上为自动化带来了全新的系统级解决方案,在效率、可靠性和用户体验方面设立了新标杆。然而,它的平台依赖性和初建生态也是不容忽视的因素。选择与否,取决于用户的具体平台环境、任务复杂度以及对稳定性与灵活性的权衡。

五、项目资源与获取方式

UFO² 是一个开源项目,开发者可以自由访问、使用和贡献代码。

  • GitHub 开源仓库:https://github.com/microsoft/UFO
  • 官方详细文档:https://microsoft.github.io/UFO/
  • 技术报告:https://arxiv.org/abs/2504.14603

微软通过开源 UFO²,旨在与全球开发者社区共同推动桌面自动化技术的下一次革命。对于企业和开发者来说,现在正是探索和融入这一 “AgentOS” 新时代的绝佳时机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/99061.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/99061.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言入门指南:字符函数和字符串函数

目录 前言: 一. 字符分类函数:精准识别字符的“身份” 1.1 ​​​​​​​核心函数 1.2 经典应用示例: 二、 字符转换函数:优雅地改变字符形态 三、strlen:计算长度的基石与无符号陷阱 3.1 关键特性 3.2 致命陷…

闪电科创-交通信号灯仿真SUMO

闪电科创计算机人工智sci/ei会议/ccf/核心,擅长机器学习,深度学习,神经网络,语义分割等计算机视觉,精通大小论文润色修改,代码复现,创新点改进等等

2025智能制造研发效率提升指南:从“项目-流程-数据”闭环看工具选型

一、引言:12年智能制造老兵的一线观察我在智能制造领域从业12年,先后主导过5家制造企业的研发流程数字化转型,从汽车零部件到高端装备制造,见证了太多研发团队因工具选型不当导致的效率损耗:项目进度卡在审批流程里、测…

spring中case一直返回else中的值-问题和原理详解

目录 案例背景 问题现象 问题根源 解决过程 最终结论 经验总结 案例背景 在基于 Spring Boot MyBatis 的项目中,需要通过 SQL 的 CASE WHEN 语句生成 user_Name字段(表示是否有关联用户名称,1 为有关联,0 为无关联&#xf…

Apache IoTDB V1.3.5 发布|优化加密算法,优化内核稳定性,修复社区反馈问题

Release AnnouncementVersion 1.3.5 Apache IoTDB V1.3.5 已经发布!V1.3.5 作为之前 1.3.x 的 bugfix 版本升级,主要调整用户密码加密算法,进一步强化数据访问安全,同时优化内核稳定性,修复社区反馈问题。欢迎点击阅读…

开源好用的博客系统简介和详细安装教程

目录 看效果 ① 搜索一键安装包 ② 填写安装信息 ③ 使用界面安装向导 ④ 安装完成 使用普通模式安装 看效果 下面直接来安装教程 ① 搜索一键安装包 登录宝塔后台系统,进入软件商店 → 一键部署,搜索 “ModStart”。 ② 填写安装信息 点击“一键…

医院高值耗材智能化管理路径分析(下)

医保协同:政策适配与编码联动的精准付费 国家医保局"带码采购、带码使用、带码结算"政策推动下,AI系统通过编码映射与实时规则引擎实现医保支付的动态适配。国医科技构建的UDI编码、医保编码与收费编码三码联动体系,可在耗材使用时自动匹配国家医保医用耗材分类与…

硬件开发2-ARM裸机开发1-I.MX6ULL - 汇编点灯

一、概念概要1、LED原理图2、内核中对应的引脚 — GPIO(1)概念GPIO(通用输入/输出)详解GPlO(General-PurposeInput/Output)是嵌入式系统和微控制器中最基本的外设接口,用于 实现数字信号的输入和…

Qwen3-80B-A3B混合注意力机制

一、注意力机制背景: 在Transformer架构中,自注意力(Self-Attention)是核心组件。其基本公式为: 其中: Q (Query):查询向量,表示问询量。用于与其他位置的Key交互&#xff0…

数据库(一)数据库基础及MySql 5.7+的编译安装

文章目录前言一、数据库概述1.1 前置知识1.1.1 LAMP / LNMP 架构1.1.2 数据库的定位1.2 数据库基本概念1.2.1 数据1.2.2 表1.2.3 数据库1.2.4 数据库管理系统(DBMS)1.2.5 数据库系统(DBS)1.3 数据库发展史1.3.1 第一阶段&#xff…

Elasticsearch HTTPS访问错误解决指南

文章目录🔍 原因分析✅ 正确的访问方式:使用 curl -k https://...🔐 你需要知道 elastic 用户的密码方法 1:查看首次生成的密码(如果刚安装)方法 2:重置密码✅ 成功示例🎉 总结&…

Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节

对于神经网络来说,我们已经习惯了层状网络的思维:数据进来,经过第一层,然后第二层,第三层,最后输出结果。这个过程很像流水线,每一步都是离散的。 但是现实世界的变化是连续的,比如…

Elasticsearch面试精讲 Day 16:索引性能优化策略

【Elasticsearch面试精讲 Day 16】索引性能优化策略 在“Elasticsearch面试精讲”系列的第16天,我们将深入探讨索引性能优化策略。这是Elasticsearch高频面试考点之一,尤其在涉及高并发写入、海量日志处理或实时数据分析场景时,面试官常通过…

ESP32-C3 入门09:基于 ESP-IDF + LVGL + ST7789 的 1.54寸 WiFi 时钟(SquareLine Studio 移植)

一. https://github.com/nopnop2002/esp-idf-st7789 1. 前言 2. 开发环境准备 2.1 硬件清单 ESP32-C3 开发板ST7789 1.54 寸 LCD其他辅助元件(杜邦线、电源) 2.2 软件安装 ESP-IDF 环境安装(WindowsVScode)VSCode 插件配置LV…

PINN物理信息神经网络驱动的三维声波波动方程求解MATLAB代码

MATLAB 代码实现了一个基于物理信息神经网络(Physics-Informed Neural Network, PINN)的三维波动方程求解器。以下是详细分析:🧠 一、主要功能🔗 二、逻辑关联 代码结构清晰,分为五个主要部分: …

leetcode33(最小栈)

设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。实现 MinStack 类:MinStack() 初始化堆栈对象。void push(int val) 将元素val推入堆栈。void pop() 删除堆栈顶部的元素。int top() 获取堆栈顶部的元素。int getMin(…

TDesign学习:(二)i18n配置与使用

配置 src/locales/lang/en_US/pages 目录下对应的各个模块语言的对象

k8s 内置的containerd配置阿里云个人镜像地址及认证

原因:阿里云仓库必须使用凭证登录,不然无法进行镜像拉取!1.生成自己的凭证信息# 格式:阿里云仓库用户名:凭证密码 echo -n myuser:mypass | base64 #生成的加密凭证 bXl1c2VyOm15cGFzcw2.修改containerd的镜像仓库配置vi /etc/co…

Python实战:HTTP接口数据获取与PostgreSQL存储系统

项目背景 项目结构 关键技术点 1. 灵活的HTTP请求处理 2. 自动表结构生成与字段类型推断 3. 健壮的数据库操作与错误处理 4. 配置驱动的设计理念 功能实现 1. 数据获取流程 2. 命令行参数支持 2. 数据处理与字段排除 项目扩展与优化方向 结语 项目背景 在日常开发和数据分析工…

递归,搜索与回溯算法

递归→搜索→回溯 名词解释 递归 1.什么是递归 形象地说就是函数自己调用自己。 例子: 二叉树的遍历-后序遍历 void dfs(treenode* root) {//细节 - 出口if(root NULL) return;dfs(root->left);dfs(root->right);printf(root->val); }快排 void quickSort…