大模型 Agent 就是文字艺术吗?

最近在技术圈里有一个很有趣的争论:大模型 Agent 是不是就是各种 Prompt 的堆叠?像 Manus 这样看起来很智能的 Agent,本质上是不是就是用巧妙的 Prompt 约束大模型生成更好的输出?换句话说,这是不是一门文字艺术?

这个问题引发了业内专家的激烈讨论,观点分化明显。让我们来看看不同的声音。

两大阵营的观点碰撞

观点一:就是文字艺术,没必要遮遮掩掩

有开发者直言不讳地表示:"没人敢说实话吗?是的,就是各种 Prompt 的堆叠。"另一位实战派开发者更加犀利:“LLM 的 input 就是 prompt,不管什么工具或模型,都只是优化 prompt。大把人把’优化 prompt’的工具吹得云里雾里,却有意无意回避其目的还是只是生成更好的 prompt。”

这种观点认为,Agent 可以看做 prompt engineering 的升级版。核心在于如何具体设计 prompt,如何拆分,顺序是什么。其他那些复杂的架构设计,在他们看来都是在"象牙塔里扯淡"。

观点二:远不止文字游戏这么简单

但技术专家们显然不买账。有人从工程角度分析:"生产级别的工程显然不仅仅是 Prompt 这么简单。"以 OpenHands 为例,对接 LLM 只是其中一个模块,真正驱动 Agent 完成复杂任务的核心,是一整套事件驱动机制,包括状态机、事件流框架、控制器等等,还用到了像 Sandbox 这样的沙箱技术。

另一位专家总结得更加全面:“真正可用的 Agent = Prompt(语言接口)+ 程序化编排 + 长期状态/记忆 + 外部工具动作 + 自反馈循环。缺少任何一环,都会从’自治智能体’迅速退化成’高级聊天机器人’。”

Agent 的本质是什么?

从技术定义来看,Agent 本质上是一个循环系统。对于一个给定目标的 AI Agent,它能够自己创建任务、完成任务、创建新任务、重新确定任务列表的优先级,并循环直到达到目标。

用公式表达就是:Agent = LLM + Planning(计划)+ Tool use(执行)+ Feedback(纠正偏差)

这个定义揭示了一个关键点:Agent 让 LLM 具备了目标实现能力,通过自我激励循环来完成给定目标。

关键在于状态管理

有一个被很多人忽视的技术细节:现在几乎所有的大模型 API 都是无状态的。大模型 API 连鱼的七秒记忆都没有,它甚至记不住自己上一次的回答是什么。

那为什么我们在 AI 聊天工具里能看到它"记住"了历史对话呢?实际上,是把以前的历史会话每次都重新传给大模型一遍,让它看起来有了记忆。这就是把无状态的 API 做成有状态的样子。

随着应用复杂化,状态管理变得越来越重要。真正厉害的 Agent 拼的其实是状态管理能力。

Prompt 的真正作用

一位分析过 Manus 和 OpenManus 项目结构的开发者指出,Prompt 确实很重要,它可以在不微调大模型的情况下,根据先验知识引导大模型行为,达到期待的业务效果。

但关键是:Prompt 是 Agent 系统中大模型和其他各个组件的润滑油,而不是全部。

以 OpenManus 为例,其结构主要包括:

  • Agent(智能体)
  • Flow(流程)
  • Tool(工具)
  • Prompt(提示词)

Prompt 只是其中一个组件。

技术的进化逻辑

从技术发展的角度看,这场争论其实反映了不同阶段的认知差异:

初级阶段:确实主要靠 Prompt 工程,通过精心设计的提示词让模型表现更好。

中级阶段:开始引入工具调用、多轮对话、简单的状态管理。

高级阶段:构建完整的事件驱动系统,包含复杂的状态机、内存管理、自主规划和执行能力。

企业级阶段:需要考虑并发、容错、监控、安全等工程化问题。

结论:既是也不是

回到最初的问题:大模型 Agent 是不是文字艺术?

答案是:既是也不是。

从某种意义上说,所有与 LLM 的交互最终都要通过文字(Prompt)来实现,这确实是一门语言艺术。设计好的 Prompt 需要对语言有深刻理解,需要巧妙的措辞和精确的逻辑。

但将 Agent 简单等同于 Prompt 堆叠,就像说建筑就是砖块堆叠一样——技术上没错,但忽略了设计、结构、工程等更重要的层面。

真正的 Agent 系统需要:

  • 精心设计的 Prompt(文字艺术)
  • 复杂的状态管理(系统工程)
  • 智能的任务规划(算法设计)
  • 可靠的工具调用(接口工程)
  • 持续的自我优化(反馈机制)

写在最后

这场争论的价值不在于谁对谁错,而在于推动我们更深入地思考 AI Agent 的本质。

对于初学者,从 Prompt 工程开始确实是一个好的起点,它能让你快速理解如何与 AI 交互。

对于有经验的开发者,则需要跳出 Prompt 的局限,从系统工程的角度思考如何构建真正可用的智能体。

技术的进步往往就是在这样的争论中螺旋上升的。无论你站在哪一边,都要承认:我们正在见证一个激动人心的技术变革时代。


你觉得大模型 Agent 是文字艺术吗?欢迎在评论区分享你的观点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/906657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1340. 跳跃游戏 V(困难)

题目描述 给你一个整数数组 arr 和一个整数 d 。每一步你可以从下标 i 跳到&#xff1a; i x &#xff0c;其中 i x < arr.length 且 0 < x < d 。i - x &#xff0c;其中 i - x > 0 且 0 < x < d 。 除此以外&#xff0c;你从下标 i 跳到下标 j 需要满…

三相电压的优势,应用场景,功率测量

三相系统概述 我国三相系统&#xff0c;由频率相同&#xff0c;幅度类似的三个交流电压组成&#xff0c;每个电压相差120度。 三相系统的优势 启动电机&#xff1a;三个矢量间隔的电压&#xff0c;在电机中产生旋转磁场&#xff0c;不需要额外绕组就可以启动电机。 减少线损…

[原创](计算机数学)(The Probability Lifesaver)(P14): 推导计算 In(1-u) 约等于 -u

[作者] 常用网名: 猪头三 出生日期: 1981.XX.XX 企鹅交流: 643439947 个人网站: 80x86汇编小站 编程生涯: 2001年~至今[共24年] 职业生涯: 22年 开发语言: C/C++、80x86ASM、Object Pascal、Objective-C、C#、R、Python、PHP、Perl、 开发工具: Visual Studio、Delphi、XCode、…

Android12 Rom定制去掉剪贴板复制成功的Toast

Android12Rom定制去掉剪贴板复制成功的Toast提示 1.前言&#xff1a; 最近在rom定制化开发时&#xff0c;测试提了一个bug&#xff0c;在浏览器或者文本里面使用剪贴板复制成功后会有一个Toast提示&#xff0c;这种体验不是很好&#xff0c;因为每次复制成功都有一个提示&…

SOC-ESP32S3部分:9-GPIO输入按键状态读取

飞书文档https://x509p6c8to.feishu.cn/wiki/L6IGwHKV6ikQ08kqwAwcAvhznBc 前面我们学习了GPIO的输出&#xff0c;GPIO输入部分其实也是一样的&#xff0c;这里我们使用按键作为GPIO输入例程讲解&#xff0c;分三步走。 查看板卡原理图&#xff0c;确定使用的是哪个GPIO查看G…

高可用集群keepalived

1.不同操作系统的安装 1.1 不同系统编译安装 ubuntu环境 apt-get - y install libssl-dev libpopt-dev daemon build-essential libssl-dev openssl libpopt-dev libsnmp-dev libnl-3-dev libnl-genl-3-dev centos环境 &#xff08;其他的下同&#xff09; yum install - y…

SpringCloud - 整合MQ实现消息总线服务

一、背景介绍 每当修改配置文件内容&#xff0c;如果需要客户端也同步更新&#xff0c;就需要手动调用/refresh接口&#xff0c;以便客户端能获取到最新的配置内容。 当客户端越来越多的时候&#xff0c;通过人工进行处理显然非常鸡肋。有没有一种更加高效的办法&#xff0c;…

测试W5500的第3步_使用ioLibrary库创建TCPServer

W5500是一款具有8个Socket的网络芯片&#xff0c;支持TCP Server模式&#xff0c;最多可同时连接8个客户端。本文介绍了基于STM32F10x和W5500的TCP Server实现&#xff0c;包括SPI初始化、W5500复位、网络参数配置、Socket状态管理等功能&#xff0c;适用于需要多客户端连接的嵌…

Web攻防-SQL注入数据库类型用户权限架构分层符号干扰利用过程发现思路

知识点&#xff1a; 1、Web攻防-SQL注入-产生原理&应用因素 2、Web攻防-SQL注入-各类数据库类型利用 演示案例-WEB攻防-SQL注入-数据库类型&架构分层&符号干扰 一、数据库知识 1、数据库名&#xff0c;表名&#xff0c;列名&#xff0c;数据 2、自带数据库&…

手机合集(不定期更新)

一、华为手机&#xff1a; 1.华为手机自助维修的方法&#xff1a; https://blog.csdn.net/humors221/article/details/145946128 2.华为手机实用功能介绍&#xff1a; https://blog.csdn.net/humors221/article/details/132514011 3.华为手机清理大数据的方法&#xff1a;…

移动安全Android——ROOT检测绕过

工具准备 Magisk GitHub - topjohnwu/Magisk: The Magic Mask for Android ZygisckNext GitHub - Dr-TSNG/ZygiskNext at v1.2.8 Shamiko Releases LSPosed/LSPosed.github.io 安卓ROOT教程 Magisk 安装教程 - Magisk 中文网 问题 大多数手机在ROOT状态下会出现APP闪…

Python高效网络爬虫开发指南

Python 网络爬虫入门与实战 一、引言 随着互联网数据的爆炸性增长&#xff0c;获取和分析这些数据变得越来越重要。网络爬虫作为数据采集的重要工具&#xff0c;在这其中扮演了不可或缺的角色。 二、环境搭建 首先我们需要安装Python环境以及一些必要的库&#xff1a; req…

wireshark: Display Filter Reference

https://www.wireshark.org/docs/dfref/// 这个里面的扩展功能还是很强大&#xff0c;可以帮着问题分析。支持大量的自定义化的字段读取功能&#xff0c;支持很多的协议。 https://www.wireshark.org/docs/dfref///f/frame.html frame.time_delta Time delta from previous ca…

dify创建银行客服系统例子

传统的银行客服系统&#xff0c;通常以会话管理的方式实现&#xff0c;配置繁琐复杂&#xff0c;固定且不灵活。如&#xff1a; 智能体的出现&#xff0c;为实现银行客服系统提供了想象空间&#xff0c;可以集知识库和业务流程为一体实现灵活可控的智能客服系统&#xff0c;即能…

前端函数防抖(Debounce)完整讲解 - 从原理、应用到完整实现

&#x1f337; 古之立大事者&#xff0c;不惟有超世之才&#xff0c;亦必有坚忍不拔之志 &#x1f390; 个人CSND主页——Micro麦可乐的博客 &#x1f425;《Docker实操教程》专栏以最新的Centos版本为基础进行Docker实操教程&#xff0c;入门到实战 &#x1f33a;《RabbitMQ》…

服务接口鉴权与内部认证:自定义注解与AOP实现的企业级实践

本文深入解析企业级系统中接口安全管控的核心需求&#xff0c;提出基于Spring AOP与自定义注解的轻量级鉴权方案。通过解构注解元数据定义、切面拦截逻辑、上下文传递机制等关键技术环节&#xff0c;系统阐述零侵入式鉴权体系的构建路径。结合金融支付网关、多租户SaaS平台、物…

26考研|高等代数:线性变换

前言 线性变换这一章节是考频较高的一部分&#xff0c;此部分涉及考点较多&#xff0c;涉及的考题也较多&#xff0c;学习线性变换时&#xff0c;应该注意搭建线性变换与矩阵之间的联系&#xff0c;掌握如何利用矩阵表示一个线性变换结构&#xff0c;同时介绍了最简单的线性变…

电磁兼容(EMC)仿真(精编版)

写在前面 本系列文章主要讲解电磁兼容(EMC)仿真的相关知识,希望能帮助更多的同学认识和了解电磁兼容(EMC)仿真。 若有相关问题,欢迎评论沟通,共同进步。(*^▽^*) 随着产品复杂性和密集度的提高以及设计周期的不断缩短,在设计周期的后期解决电磁兼容性(EMC)问题变得…

解决:dpkg: error: dpkg frontend lock is locked by another process

1、等待其他进程完成 如果后台有其他包管理操作&#xff08;如自动更新、软件安装等&#xff09;&#xff0c;等待几分钟再重试。 可以通过以下命令查看是否有相关进程&#xff1a; ps aux | grep -E apt|apt-get|dpkg 2、强制终止占用锁的进程 如果确认没有其他包管理操作&…

LVGL(lv_textarea文本框控件)

文章目录 一、lv_textarea 是什么&#xff1f;二、基本用法1. 创建 lv_textarea 对象2. 设置提示文字&#xff08;占位符&#xff09;3. 设置最大长度4. 设置密码模式&#xff08;显示为\*号&#xff09;5. 获取和设置内容6. 配合虚拟键盘使用&#xff08;常用于触摸屏&#xf…