浅窥Claude-Prompting for Agents的Talk

Prompting for Agents

请添加图片描述

先说一句:颜值这么高,你俩要出道啊。

请添加图片描述
此图基本就是claude倡导的agent prompt结构了,可以看到经过一年时间的演变,基本都是follow这个结构去写prompt。我比较喜欢用Role→react→task→histroy→few shot→rules/guidelines这个结构

请添加图片描述

可以根据这个表评估一下,直接丢给AI也可以

请添加图片描述

目前比较常见的就这几个了吧,做的都比较成熟了,当然啦,还有目前超火的AI scientist

请添加图片描述

  1. Jeremy觉得prompt是很重要的,prompt作为概念工程就是人在给AI赋予insight。
  2. 去设计agent要以agent的角度去思考,把他当成Intern去教,搜索的时候tool 的使用次数,什么时候停止,要清楚的写出来。
  3. tool selection比较重要, 可能需要你再fewshot和tool description的时候做的比较详细
  4. 另外一个option就是构建好thought,这个可以依赖模型本身提升比如说RL和人工few shot
  5. prompt可能会导致agent无止境的调用tool并且没有答案,所以emm,加点rules吧,这也是为啥RL一定程度上对agent很重要
  6. 控制context也就是chat history怎么弄呢,compress,然后summary,绝大情况下还好,但summary肯定会丢一丢丢细节。我觉得目前agent memory部分的工作需要做的更方便易用一点,同时尽可能保留足够多的细节,同志们还要努力啊。multiagent某种程度上会缓解这个部分问题,其是看任务场景的话,大部分好用的实现都是agent as tools,整体还行。

请添加图片描述
展示了一个好的tool design的例子,这个确实比我们的做的详细,很多人偷懒不会写那么多parameter进去,但是这个对系统扩展不是很友好,我个人不喜欢这种做法,如果不是官方tool call,就用自然语言去描述就比较方便,anyone can make any tools,当然还有一些工作是让agent自己写tool加进去的,或许有用。。。但是想想就觉得不是很稳定

请添加图片描述
claude有个模拟器,牛啊,你可以测试并迭代你的prompt,thought什么的都有展示,有点像langsmith。

请添加图片描述

eval也是比较重要的一环,感觉可以来个综合策略去eval?

  1. 这个就是测试的工作啦,面对极端的case,抗压测测
  2. LLM judge,有点用但不多
  3. 终极解法:转人工。所以human in the loop 是不可或缺的一环。

请添加图片描述
一些cases,anyway, try you best to eval.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91971.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91971.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySQL04】:基础查询

MySQL的基本查询表的增删查改 insert(插入) insert [info] table_name [(colume, [,colume] ...)] values (value_list) ...对于value_list我们通过,作为分隔符 插入替换我们使用on duplicate key update, 表示如果存在主键冲突, 会进行更新, 这个字段后面还有写更新的字段repl…

NGINX反向代理golang后端服务

nginx配置参考(/etc/nginx/sites-available路径下创建配置文件) server {listen 80; # 监听80端口server_name ip; # 你的域名或IPlocation / {root /var/www/test_page/;index index.html; # 默认文件try_files $uri $uri/ /index.html; # 单页…

【秋招笔试】2025.08.03虾皮秋招笔试-第二题

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围在线刷题 bishipass.com 02. 城市规划的连通网络 问题描述 A先生是一名城市规划师,他负责设计一个智能城市的通信网络。城市被划分为一个 n m n \times m n

JVM 01 运行区域

Java 虚拟机 跨平台 虚拟机隐藏平台差异,解决不同平台代码运行结果不一致问题,实现Write Once, Run Anywhere,实现用户代码跨平台。它本身是一个操作系统上的应用程序,将字节码文件翻译成特定机器的机器码。 Java 虚拟机 运行时内…

[学习笔记-AI基础篇]03_Transfommer与GPT架构学习

介绍GPT-1,GPT-2,GPT-3,GPT-4 GPT-1 介绍2018年6月,OpenAI公司发表了论文"|mproving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力》,推出了具有1.17亿个参数的GPT-1(Generative Pre-trainingTransformers,生成式预训练变换…

HPNetworkCheckControl.dll HPEnvRes.dll hpcasl.dll HpBwcDecode.dll HpBlogic.dll hpbhilxres.dll

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

飞算 JavaAI:给需求分析装上 “智能大脑“

在软件开发的漫长旅途中,需求分析是至关重要的起点,其精准度与效率直接关乎整个项目的成败。传统的需求分析依赖人工梳理,不仅耗费大量时间与精力,还时常出现理解偏差和逻辑漏洞。而飞算 JavaAI 的横空出世,犹如为需求…

javacc学习笔记 01、JavaCC本地安装与测试

文章目录前言本章节源码一、什么是javacc二、Mac环境安装javacc三、javacc测试案例1、编写词法描述文件2、借助javacc命令来处理demo01.jj文件3、idea配置输入参数,运行Adder类方法四、javacc文件编译类描述4.1、demo1.jj文件生成内容描述&解析转换过程4.2、解析…

Java基础-stream流的使用

目录 案例要求: 实现思路: 代码: 总结: 案例要求: 实现思路: 创建一个包含学生姓名(String)和选择地址变量(集合)的实体类,然后将题干数据封装到集合,然后进行stream操作 代码: import ja…

virtualbox+UBuntu20.04+内存磁盘扩容

写在前面:1.由于我写博客都是偏向个人笔记性质的,所以写的比较粗糙,如果有疑问私信评论我即可。2.这篇博客的解决方法应该算是“全网”首发吧,因为我为了磁盘扩容真的找了好多相关资料,但是基本都没有用。如果你也是找…

关于对Spring的理解,以及对spring中的两大核心概念AOP和IOC的理解

我们先来说一说Spring,从总体上Spring就是一个基础框架,同时Spring给我们提供了一个Bean容器,用来装载和管理具体的Bean对象,你像我们之前创建对象的时候就是通过new关键字来实现的,但是现在我们只需要告诉容器有哪些对…

Next Terminal 实战:内网无密码安全登录

本文首发于 Anyeの小站,点击阅读原文体验更加。 前言 在日常的 HomeLab 或小型私有云环境中,我们常常通过反向代理(如 Nginx、Caddy 等)将内网服务暴露到公网,方便远程访问。然而,一旦端口映射开启、公网…

WebSocket断线重连机制:保障实时通信的高可用性

一、为什么需要断线重连?WebSocket虽提供全双工通信能力,但实际环境中连接稳定性受多重威胁:​​网络层波动​​:Wi-Fi切换、4G/5G信号抖动(触发onclose事件)​​服务端异常​​:服务器宕机、主…

低空三维多物理场耦合风洞试验,保证飞行器的性能安全是低空飞行的底线,是低空经济发展的基础

风墙\风矩阵开发背景:2024年被称为中国低空经济产业发展元年,国家发改委提出“无安全、不低空”原则,要求低空经济产业在技术研发、适航认证、运营管理各环节优先保障安全。目前无人机及其他低空飞行器技术已深度融入军事、民用与工业领域&am…

中文基于Qwen3-235B-2507蒸馏数据集的操作

中文基于Qwen3-235B-2507蒸馏数据集的操作 flyfish 方式1 from datasets import load_dataset from transformers import AutoTokenizer# -------------------------- 配置参数 -------------------------- TOKENIZER_PATH "/media/models/models/Qwen/Qwen3-8B/" #…

论文阅读笔记:《Dataset Distillation by Matching Training Trajectories》

论文阅读笔记:《Dataset Distillation by Matching Training Trajectories》1.动机与背景2.核心方法:轨迹匹配(Trajectory Matching)3.实验与效果4.个人思考与启发主体代码算法逻辑总结一句话总结: 这篇论文通过让合成…

STM32标准库的工程创建

一.所需文件说明 1.启动文件startup_xxxx.s 作用:初始化堆栈指针、复位向量、中断向量表,执行 SystemInit() 后跳转到 main()。 位置:Libraries/CMSIS/Device/ST/STM32Fxx/Source/Templates/arm/ 文件名: startup_stm32f10x_l…

k8s ceph sc 设置文件系统格式化参数

前言 默认的 sc 文件系统 inode 太少,对于小文件场景,往往会出现容量没满,inode 已经用尽的情况,本文说明如何设置 inode。 说明 本文使用的是 rook-ceph 部署的 ceph 作为存储后端。 xfs 文件系统 sc 创建带格式化参数的 xfs 文件系统的 sc allowVolumeExpansion: t…

关于Npm和Nvm的用法

npm是个什么东西 npm是什么 node package managernodejs包管理工具处理复杂的包的管理的问题那么使用npm以后就不需要从前端引入相应的代码和文件等。 npm相关的命令 查看版本npm -v 更新npm install npm5.4.0 更新到最新版本npm install npmlatest 初始化项目 npm ini…

MyBatis高效查询:简化JDBC开发实战

Mybatis MyBatis 是一款优秀持久层(DAO)框架,用于简化 JDBC 开发 ,原是 Apache 开源项目 iBatis,经历迁移改名,2010 年从 Apache 迁到 Google Code 并改名,2013 年 11 月迁至 GitHub,官网为 https://mybati…