AppAgentx 开源AI手机操控使用分享

项目地址: https://appagentx.github.io/?utm_source=ai-bot.cn

GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main

arXiv技术论文:https://arxiv.org/pdf/2503.02268

AppAgentx是什么:

AppAgentX 是西湖大学推出的一种自我进化式 GUI 代理框架。它通过从执行历史中学习并抽象出高级动作，来提升智能手机交互的效率和智能性。该框架利用记忆与进化机制实现持续优化，性能在测试中显著优于现有方法，为智能代理开辟了新方向。

AppAgentx的主要功能:

自动归纳高效操作模式：检测任务执行中的重复性操作，自动总结为高级别的“一键”操作，简化操作流程。

减少重复计算，提升执行效率：基于记忆和复用执行策略，避免重复推理，让任务执行更高效。

基于视觉的通用操作能力:：依赖屏幕视觉信息进行操作，无需后端API支持，在不同软件和设备上通用，实现“即插即用”。

支持复杂任务和跨应用操作: ：像人类一样操作各种应用程序，支持复杂的跨应用任务，例如从网页爬取信息后填入Excel，或在多个软件之间联动操作。

AppAgentX的应用场景:

自动化日常操作：自动完成手机设置调整、应用内任务等，减少手动操作。

智能助手增强: 集成到智能助手，帮助用户快速执行复杂任务。

企业流程自动化: 用于企业数据录入、报表生成等重复性任务，提高效率。

跨应用任务管理: 支持在不同应用间切换和操作，实现跨平台自动化。

辅助特殊人群: 简化操作流程，帮助老年人或身体不便者更轻松使用手机。

开始使用

LLM 设置和依赖项

本项目使用 LangChain 和 LangGraph 构建代理框架。建议按照其官网建议的安装方法进行安装。其他依赖项请使用pip install -r requirements.txt。LLM 配置请在文件中调整相关设置config.py。

数据库部署与连接

我们使用 Neo4j 作为代理的内存存储，并利用其 Cypher 查询语言来方便地检索节点。向量存储则使用 Pinecone。请确保在config.py文件中配置了必要的 API 和密钥。更多信息，请访问Neo4j 官网和Pinecone 官网。

config.py 配置文件

你需要安装Neo4j 到本地,进行部署和运行,同样的Pinecone需要API_KEY

屏幕识别与特征提取部署

为了简化部署，我们使用 Docker 将屏幕识别和特征提取服务容器化。有关启动容器的说明，请参阅后端文件夹中的 README 文件。请注意，这可能需要 Docker 的 GPU 支持；有关配置，请参阅 Docker 官方文档。这种模块化方法可以轻松替换不同的屏幕解析和特征提取工具，从而显著增强模型的可扩展性。如果您需要部署，请参阅当前项目后端文件夹中的README 文件。