AppAgentx 开源AI手机操控使用分享

项目地址: https://appagentx.github.io/?utm_source=ai-bot.cn

GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main

arXiv技术论文:https://arxiv.org/pdf/2503.02268

AppAgentx是什么:

AppAgentX西湖大学推出的一种自我进化式 GUI 代理框架。它通过从执行历史中学习并抽象出高级动作,来提升智能手机交互的效率和智能性。该框架利用记忆与进化机制实现持续优化,性能在测试中显著优于现有方法,为智能代理开辟了新方向。

AppAgentx的主要功能:

自动归纳高效操作模式:检测任务执行中的重复性操作,自动总结为高级别的“一键”操作,简化操作流程。

减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。

基于视觉的通用操作能力::依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现“即插即用”。

支持复杂任务和跨应用操作: :像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。

AppAgentX的应用场景:

自动化日常操作:自动完成手机设置调整、应用内任务等,减少手动操作。

智能助手增强: 集成到智能助手,帮助用户快速执行复杂任务

企业流程自动化: 用于企业数据录入、报表生成等重复性任务,提高效率。

跨应用任务管理: 支持在不同应用间切换和操作,实现跨平台自动化。

辅助特殊人群: 简化操作流程,帮助老年人或身体不便者更轻松使用手机。

开始使用

  1. LLM 设置和依赖项

本项目使用 LangChain 和 LangGraph 构建代理框架。建议按照其官网建议的安装方法进行安装。其他依赖项请使用pip install -r requirements.txt。LLM 配置请在 文件中调整相关设置config.py

  1. 数据库部署与连接

我们使用 Neo4j 作为代理的内存存储,并利用其 Cypher 查询语言来方便地检索节点。向量存储则使用 Pinecone。请确保在config.py文件中配置了必要的 API 和密钥。更多信息,请访问Neo4j 官网Pinecone 官网

config.py 配置文件

你需要安装Neo4j 到本地,进行部署和运行,同样的Pinecone需要API_KEY

  1. 屏幕识别与特征提取部署

为了简化部署,我们使用 Docker 将屏幕识别和特征提取服务容器化。有关启动容器的说明,请参阅后端文件夹中的 README 文件。请注意,这可能需要 Docker 的 GPU 支持;有关配置,请参阅 Docker 官方文档。这种模块化方法可以轻松替换不同的屏幕解析和特征提取工具,从而显著增强模型的可扩展性。如果您需要部署,请参阅当前项目后端文件夹中的README 文件。

  1. 启动演示

要使用此项目,您首先需要配置ADB(Android Debug Bridge)以将您的 Android 设备连接到您的计算机。

  1. 设置 ADB 并连接您的设备
3.2 在您的电脑上安装 ADB

下载并安装Android Debug Bridge (adb) — 一种命令行工具,可实现您的电脑和 Android 设备之间的通信。

  • 在您的 Android 设备上启用 USB 调试:

  • 转到“设置” > “开发人员选项”并启用“USB 调试”。

  • 使用 USB 数据线将您的设备连接到 PC 。

推荐使用Qtscrcpy工具代替一下

同样的可以使用Android studio的工具进行链接

启动 Gradio

设置好设备或模拟器后,即可启动项目。我们使用Gradio作为前端界面。使用以下命令之一启动演示:

python demo.py 使用前提是你已经安装好了python环境

或者

gradio demo.py

现在,AppAgent就可以使用了!🚀

综上所述的仅适合你是有CUDA显卡的人适合. macos可以直接退出了,因为博主踩坑了. 我还在尝试使用,在macos上测试成功,有待实现.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[原创]X86C++反汇编01.IDA和提取签名

https://bpsend.net/thread-415-1-1.html 用VC6.0新建一个控制台工程 编译成 debug 和 Release 2个版本 应ida分别查看2种版本的程序 高版本ida 可能会直接定位到函数入口,正常情况下,我们需要先调试找到关键,找到关键以后点再通过调试设置api断点,读写断点等,找到程序的关键…

vs2022 Qt Visual Studio Tools插件设置

安装之后,需要指定QT中msvc编译器的位置,点击下图Location右边的按钮即可 选择msvc2022_64\bin目录下的 qmake.exe 另一个问题,双击UI文件不能打开设计界面 设置打开方式 选择msvc2022_64\bin目录下的designer.exe 确定即可 然后设置为默认值即可 确定…

C++代码随想录刷题知识分享-----两数之和(哈希表)三种算法逐个击破

题目描述 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回它们的下标。 每个输入只对应一个答案。同一个元素不能重复使用。你可以按任意顺序返回答案。 示例 输入: nums [2, 7, 11, 15], ta…

List介绍

什么是List 在集合框架中,List是一个接口,继承自Collection Collection也是一个接口,该接口中规范了后序容器中常用的一些方法 Iterable也是一个接口,表示实现该接口的类是可以逐个元素进行遍历的,具体如下&#xff1…

深入理解API:从概念到实战

引言 在现代软件开发中,API(Application Programming Interface)无处不在。无论是调用第三方服务、访问操作系统功能,还是使用编程语言的标准库,API 都扮演着关键角色。但对于许多初学者来说,API 仍然是一…

织梦dedecms登录后台出现Safe Alert Request Error step 2

今天一个客户在安装织梦dedecms时候,安装完成后登录后台就出现“Safe Alert Request Error step 2”,常用dedecms的朋友都知道,这是织梦的安全机制,在程序觉得有sql注入等攻击时候,会有这种提示。 1、起初我以为是文件…

BLIP3-o:理解和生成统一的多模态模型

文章目录 研究背景BLIP3-o 框架3个关键问题BLIP3-o模型总结 paper link: https://arxiv.org/pdf/2505.09568from saleforce research 研究背景 随着gpt4o图像生成和编辑的应用火爆,如何构造能够同时处理图像理解和生成任务的统一多模态模型,成为研究的…

练习小项目7:天气状态切换器

🧠 项目目标: 点击按钮切换不同天气状态,背景或图标随之变化。 ✨ 功能描述: 显示当前天气(如:☀️ 晴天 / ☁️ 多云 / 🌧️ 雨天) 点击“切换天气”按钮,每点击一次…

esp32 lvgl9.2版本,透明底色图片的,透明部分被渲染成黑色,不随背景颜色变化解决办法

在lvgl图片转换工具时,指定转换格式为ARGB8888 代指Alpha RGB RGB565(不支持 Alpha),透明像素会被解释为黑色。改用 ARGB8888。 有问题的 转换为ARGB8888后的

AI智能分析网关V4区域入侵检测算法:全功能覆盖,多场景守护安防安全

一、方案背景​ 在当今社会,安全需求日益增长,传统安防监控系统因效率低、精准度不足等问题,已无法满足现代安全防范的要求。AI智能分析网关V4区域入侵检测算法凭借其先进的人工智能技术,能够实时、精准地识别区域内的异常入侵行…

Phantom 视频生成的流程

Phantom 视频生成的流程 flyfish Phantom 视频生成的实践 Phantom 视频生成的流程 Phantom 视频生成的命令 Wan2.1 图生视频 支持批量生成 Wan2.1 文生视频 支持批量生成、参数化配置和多语言提示词管理 Wan2.1 加速推理方法 Wan2.1 通过首尾帧生成视频 AnyText2 在图片里玩…

瑞萨单片机笔记

1.CS for CC map文件中显示变量地址 Link Option->List->Output Symbol information 2.FDL库函数 pfdl_status_t R_FDL_Write(pfdl_u16 index, __near pfdl_u08* buffer, pfdl_u16 bytecount) pfdl_status_t R_FDL_Read(pfdl_u16 index, __near pfdl_u08* buffer, pfdl_…

uniapp+ts 多环境编译

1. 创建项目 npx degit dcloudio/uni-preset-vue#vite-ts [项目名称] 2.创建env目录 多环境配置文件命名为.env.别名 添加index.d.ts interface ImportMetaEnv{readonly VITE_ENV:string,readonly UNI_PLATFORM:string,readonly VITE_APPID:string,readonly VITE_NAME:stri…

英语学习5.24

make informed decisions 表示“做出明智的决定”,是一个常用的固定搭配,常用于议论文中。 …to make informed decisions. 为了做出明智的决定(表示目的的动词不定式)。 We need accurate data to make informed decisions. Ci…

【Qt】QImage::Format

QImage::Format 是 Qt 中用于指定图像像素数据格式的枚举类型。它决定了图像如何存储颜色信息和透明度(如果有)。选择合适的 Format 对性能、内存占用以及是否支持某些特性(如透明通道)有重要影响。 常见的 QImage::Format 枚举值…

算法笔记·数学·欧拉函数

题目:(AcWing) 给定 n 个正整数 ai,请你求出每个数的欧拉函数。 欧拉函数的定义 1∼N 中与 N 互质的数的个数被称为欧拉函数,记为 ϕ(N)。 若在算数基本定理中,N,则: ϕ(N) N 输入…

深入理解Redis线程模型

Redis数据 redis数据保存在内存,但是会持久化到硬盘 Redis线程 Redis的整体线程模型可以简单解释为 客户端多线程,服务端单线程。也就是可以多个客户端同时连接。 核心线程模型:单线程 多路复用 Redis 的主线程负责处理所有客户端请求&a…

「Python教案」输入输出函数的使用

课程目标 1.知识目标 能使用input()输入函数和print()输出函数实现人机之间的交互。能够合理的确定输入数据的数据类型,并进行数据类型转换。能够使用格式化字符串(f-string)将数据动态输出。 2.能力目标 能够使用…

医疗影像中,DICOM点云、三角面片实体混合渲染(VR)

此文章,涉及到专业性比较强,所以,大部分的内容,基本上都是示例代码的形式出现。以下的技术路径,完全经过实践验证,并且效果很好,可以放心使用。 1 概述 在医学影像中,对DICOM的渲染…

【C/C++】线程状态以及转换

文章目录 线程状态以及转换1 基本状态1.1 新建(New)1.2 就绪(Ready / Runnable)1.3 运行中(Running)1.4 阻塞/等待(Blocked / Waiting / Sleeping)1.5 挂起(Suspended&am…