LLMs之Agent：ChatGPT Agent发布—统一代理系统将研究与行动无缝对接，开启智能助理新时代

OpenAI重磅发布ChatGPT Agent—统一代理系统将研究与行动无缝对接，开启智能助理新时代

第一部分：Operator 和深度研究的自然演进

第二部分：一个与您协作、为您工作的智能代理

第三部分：拓展真实世界的实用性

第四部分：使用方式

第五部分：新能力带来的新风险

第六部分：最强生物风险安全防护

第七部分：可用性

第八部分：局限性与未来展望

OpenAI重磅发布ChatGPT Agent—统一代理系统将研究与行动无缝对接，开启智能助理新时代

地址	地址：https://openai.com/index/introducing-chatgpt-agent/
时间	2025年7月17日
作者	OpenAI

第一部分：Operator 和深度研究的自然演进

OpenAI 将此前独立的 Operator（可在网页上进行点击、滚动、输入等交互操作）与深度研究模型（擅长信息综合与生成长文报告）合并，形成一个统一的代理系统，使模型既能深入分析信息，又能主动在网页上执行操作，解决了两者各自的局限性。

核心要点

>> 互补优势融合：Operator 擅长网页交互，而深度研究擅长信息汇总；二者合并后，模型能够同时完成访问信息和深度分析的全过程。
>> 主动式任务执行：新系统不再仅仅生成文本，而是能够“思考并行动”，根据用户指令主动在虚拟浏览器中执行一系列操作。
>> 无缝切换模式：用户可在同一对话中，从简单对话自由过渡到要求模型执行具体操作，流程自然流畅。

经验与技巧

>> 在实际应用时，可先让模型简单浏览网页（文本模式），如需下载文件或登录，切换至可视化浏览器并授权“接管”模式。
>> 对于需要深度报告的任务，明确告知模型所需分析深度与格式，充分利用其深度研究能力。

第二部分：一个与您协作、为您工作的智能代理

ChatGPT Agent 提供了一套多样化工具，包括可视化浏览器、文本浏览器、终端和 API 连接器，可根据任务需求灵活选择最优执行路径，并能连接 Gmail、GitHub 等应用，实现与现有工作流的无缝集成。

核心要点

>> 多元化工具箱：可视化浏览器用于处理以人类为设计对象的网站，文本浏览器便于大规模文本检索与分析，终端可运行代码，API 连接器可访问日历、收件箱等私有数据。
>> 虚拟计算机环境：所有操作均在独立的虚拟机中进行，保持任务上下文一致，无需用户来回切换环境。
>> 实时协作与中断可控：用户可随时中断、澄清指令或接管浏览器，模型会保留已有进度并根据新指示继续执行。

经验与技巧

>> 在需要处理敏感数据时，先在浏览器中“接管”登录，确保 API 连接器仅用于读取权限而不开放过度控制。
>> 面对多步骤任务，可将每一步拆分，引导模型先规划再执行，以降低因一次性复杂指令带来的错误风险。

第三部分：拓展真实世界的实用性

Agent 能自动执行工作场景中的重复性任务（如将仪表盘转换为可编辑的演示文稿、更新财务表格）以及个人场景中的生活规划（如旅行行程、晚宴规划、预约安排），大幅提升效率。

核心要点

>> 职场自动化：准备演示文稿、整理会议日程、生成财务模型、构建竞争分析报告等，模型输出可直接编辑。
>> 个人助理：规划和预订旅行、菜品采购与烹饪计划、专家预约等一应俱全。
>> SOTA 性能：在 Humanity’s Last Exam（41.6 pass@1）和 FrontierMath（27.4% 正确率）、内部知识工作基准、DSBench、SpreadsheetBench（45.5%）等评测中多项领先。

经验与技巧

>> 针对专业任务，可参考Benchmark的示例指令，确保模型在关键步骤（如数据下载、图表生成）中采用正确工具。
>> 在对比多种方案时，利用并行多次尝试（parallel rollout）提高成功率，并通过自信度指标选出最佳结果。

第四部分：使用方式

用户可在对话界面的工具下拉菜单中，随时切换至“agent mode”，描述所需任务并监控模型的每一步操作，还能设置定期自动执行（如每周报告）。

使用地址：https://chatgpt.com/?openaicom-did=bdc39a56-270f-4ce0-9f6c-1736d412fe83&openaicom_referred=true

核心要点

>> 一键启用与描述：选择“agent mode”后，用自然语言描述任务要求。
>> 操作可视化：执行过程中，屏幕上实时展示模型执行步骤，可中途插入指令或接管操作。
>> 任务调度：支持定期任务，如每周自动生成并发送报告。

经验与技巧

>> 在首次使用时，可先让模型执行一遍示例任务，熟悉“屏幕叙述”流程与中断机制。
>> 对于周期性强的工作，提前配置好模板（例如 PowerPoint、电子表格），并设置自动调度，最大化节省操作时间。

第五部分：新能力带来的新风险

ChatGPT Agent 可直接在网页上执行操作并访问用户数据，虽然配备了多层次安全控制，但整体风险相较于仅生成内容的模型有所提升，需要用户在使用时谨慎衡量。

核心要点

>> 提示注入风险：恶意页面可通过隐藏提示操控模型行为，可能导致敏感数据泄露或误操作。
>> 误操作风险：在执行真实交易或发送电子邮件等关键操作前，模型会主动请求用户确认；但用户仍需保持警惕。
>> 数据隐私控制：提供一键删除浏览数据与退出所有会话的功能，且“接管模式”下模型不存储用户输入（如密码）。

经验与技巧

>> 勿在未审查过的网址或可疑网页上启用 Agent；对于高风险操作，务必手动确认所有请求。
>> 定期清理浏览数据，并仅在必要时启用连接器，遵循最小权限原则。