AI智能驱动浏览器工具Browser Use详解

前言

在之前关于 AI 测试相关的几篇文章中,我们分别介绍了通过 playwright-mcp,以及 midscene.jsmagentic ui 等几个不同的 AI 浏览器工具,实现 AI 驱动自动化测试的方法介绍。而其实在这些不断涌现的新工具出现之前,还有一个更早推出(2024.11),也同样还在不断完善的AI浏览器驱动工具 Browser Use,其工具实现思路,为后来的相关工具提供了很多借鉴。 而经过半年多40多个版本的迭代,目前最新版本 0.2.5,工具功能也日臻完善。

本文,我们就再来对这个 AI 浏览器做一个系统的介绍。

browser-use简介

browser-use 的定位是提供一个简易且功能强大的,将不同AI Agent和浏览器连接起来的方案,实现基于AI的智能化浏览器自动化。

它是一个基于Python的开源库,在github上已有超过 61K 的Stars,可以说是备受关注。

主要依托 Playwright/Puppeteer 的浏览器控制能力和 AI 大模型的推理分析能力,完成让 AI 从资讯助手向辅助执行的转变。在其之后,mcp大行其道,包括后续的其他各种浏览器AI驱动,也都能看到 browser-use 方案的影子。

实现原理

browser-use 的实现,其实是通过 LangchainLLM 大语言模型实现的一个 AI Agent 智能体,来理解网页内容并进一步生成操作指令。项目底层依赖 Playwright 框架实现浏览器自动化操作,支持多浏览器(如 Chromium、Firefox 等),能够模拟真实用户的点击、输入、导航等行为。

基于 AI 能力,系统能够自动识别网页中的可交互元素(如按钮、输入框等),并结合上下文的理解生成对应的交互逻辑,提升自动化效率,实现基于 AI 的浏览器智能。

核心架构解析

browser-use 通过分层架构实现 AI Agent 与浏览器的深度集成,其核心架构不同分层的主要作用如下:

Agent 层(决策中枢)

这一层,主要负责任务流程编排与决策制定。通过实现小型状态机管理任务流程, 并与 LLM(如 OpenAI)进行交互获取决策指令。

Controller 层(指令转换器)

这一层负责将高级决策转化为具体浏览器操作指令, 支持 DOM 操作、页面导航等基础动作,也提供对多标签页交互逻辑的管理。

DOM 解析引擎

在这一层对网页结构与内容实时解析,包括提供视觉识别能力(OCR 支持),完成对可操作的网页元素映射关系的构建。

Browser 接口层

在这一层,基于Playwright框架实际驱动浏览器行为,除了内置的无头模式控制,也可以通过指定浏览器路径和用户浏览器进行交互。

架构图

功能模块

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新成果:GaN基VCSEL动态物理模型开发

作为高速数据传输与光电信号处理的核心器件,垂直腔面发射激光器(VCSEL)在高速光通信、激光雷达等领域应用广泛,其动态特性直接关联器件调制速率及稳定性等关键参数。近期,天津赛米卡尔科技有限公司技术团队开发了GaN基…

嵌入式学习笔记 - freeRTOS xTaskResumeAll( )函数解析

第一部分 移除挂起等待列表中的任务 while( listLIST_IS_EMPTY( &xPendingReadyList ) pdFALSE )//循环寻找直到为空,把全部任务扫描一遍 { pxTCB ( TCB_t * ) listGET_OWNER_OF_HEAD_ENTRY( ( &xPendingR…

大数据+智能零售:数字化变革下的“智慧新零售”密码

大数据+智能零售:数字化变革下的“智慧新零售”密码 大家好,今天咱们聊聊一个火到不行的话题:大数据在智能零售中的应用。这个领域,不仅是技术的“硬核战场”,更是商业创新的风口浪尖。谁能玩转数据,谁就能掌控消费者心智,实现销售爆发。 咱们不搞枯燥学术,而是用最“…

react 常见的闭包陷阱深入解析

一、引子 先来看一段代码,你能说出这段代码的问题在哪吗? const [count, setCount] = useState(0); useEffect(() => {const timer = setTimeout(() => {setCount(count + 1);}, 1000);return () => clearTimeout(timer); }, []);正确答案: 这段代码存在闭包陷阱…

零基础在实践中学习网络安全-皮卡丘靶场(第十五期-URL重定向模块)

本期内容和之前的CSRF,File inclusion有联系,复习后可以更好了解 介绍 不安全的url跳转 不安全的url跳转问题可能发生在一切执行了url地址跳转的地方。如果后端采用了前端传进来的(可能是用户传参,或者之前预埋在前端页面的url地址)参数作为了跳转的目…

Python训练营---DAY48

DAY 48 随机函数与广播机制 知识点回顾: 随机张量的生成:torch.randn函数卷积和池化的计算公式(可以不掌握,会自动计算的)pytorch的广播机制:加法和乘法的广播机制 ps:numpy运算也有类似的广播机…

什么是ANSYS ACT? ACT又可以分为哪几类?

ANSYS作为目前仿真界主流软件之一,除了给用户提供其强大的功能之外,还给用户提供了高度自定义定制的权限。所谓定制,也即用户可以根据自己仿真需求修改现有功能并展示全新功能的产品内操作。定制的目标是改变现有的用户体验,以满足…

电路图识图基础知识-电动机正反转控制电路详解(二十)

1. 转换开关手动正反转控制电路 转换开关(QS)又称倒顺开关,是一种手动控制装置,可切换电动机的旋转方向。它具有三个工作位置:正向、停止和反向。 工作原理: 闭合总电源开关 QS若需正向运转,将…

Spring Boot微服务架构(十):Docker与K8S部署的区别

Spring Boot微服务在Docker与Kubernetes(K8S)中的部署存在显著差异,主要体现在技术定位、管理能力、扩展性及适用场景等方面。以下是两者的核心区别及实践对比: 一、技术定位与核心功能 Docker 功能:专注于单节点容器化…

性能剖析:在 ABP 框架中集成 MiniProfiler 实现性能可视化诊断

🚀 性能剖析:在 ABP 框架中集成 MiniProfiler 实现性能可视化诊断 📚 目录 🚀 性能剖析:在 ABP 框架中集成 MiniProfiler 实现性能可视化诊断一、为什么选择 MiniProfiler? 🧐二、集成 MiniProf…

ESP32 在Arduino开发环境中,如果程序运行报错如何定位程序报错是哪行代码

在开发中,我们常常会遇到编译正常,但是运行过程中程序报错,然后重启,在这种情况下,又没法知道是哪段程序引起的,现在我们就来解决这个问题。 其实ESP32的SDK中已经附带这些debug的工具了。 首先如果我们程…

Python 包管理器 uv 介绍

Python 包管理器 uv 全面介绍 uv 是由 Astral(热门工具 Ruff 的开发者)推出的下一代高性能 Python 包管理器和构建工具,用 Rust 编写。它旨在解决传统工具(如 pip、virtualenv、pip-tools)的性能瓶颈,同时…

win10启动时小键盘灯默认不亮怎么办

第一步,按winR,打开运行。 第二步,输入regedit,打开注册表。 第三步,在注册表编辑器中,依次展开HKEY_ USERS --》.DEFAULT --》Control Panel --》Keyboard , 第四步,选中Keyboard 之后在右侧窗…

C盘的“下载”修改位置时出错了,怎么还原

本来想修改“下载”的位置,结果直接成D盘的快捷键了。 正常应该是D盘里面的一个文件夹,而不是D盘。 而且打开D盘,里面的文件夹,全部按照时间分区显示了,而不是正常的文件显示。 解决办法: 1、还原下载路…

量化面试绿皮书:7. 100的阶乘中有多少个尾随零

文中内容仅限技术学习与代码实践参考,市场存在不确定性,技术分析需谨慎验证,不构成任何投资建议。 7. 100的阶乘中有多少个尾随零 Q: 100 ! 100! 100!(100 的阶乘)中有多少个尾随零? A: 100 ! 100! 100…

Java 常用 API 分类总结(算法竞赛考前速记篇)- 适用于算法竞赛(如 CCF CSP、蓝桥杯、NOI)

以下是Java 常用 API 的系统性总结,特别适用于算法竞赛(如 CCF CSP、蓝桥杯、NOI)场景。按照功能分类,并给出代表性方法及简要用法说明,方便复习与带入考场: ✅ Java 常用 API 分类总结(算法竞赛…

重复文件管理 一键清理重复 图片 文档 免费 超轻量无广告

各位电脑小卫士们!今天给你们介绍一款超厉害的软件——ZZYDupFile,它是专门搞重复文件管理的轻量级工具,能帮咱快速找到并清理电脑里的重复文件。接下来我就详细说说它的那些优点。 软件下载地址安装包 首先说说它的核心功能。它查重有好几…

本地部署企业邮箱,让企业办公更安全高效

在当今数字化办公时代,企业邮箱作为企业沟通协作的重要工具,承载着企业业务往来和办公协同的重要职能。基于安全性、个性化需求、系统集成等方面的考量,越来越多的企业倾向于选择本地部署企业邮箱,本地化部署不仅能够有效守护企业…

基于深度强化学习的智能机器人导航系统

前言 随着人工智能技术的飞速发展,机器人在日常生活和工业生产中的应用越来越广泛。其中,机器人导航技术是实现机器人自主移动的关键。传统的导航方法依赖于预设的地图和路径规划算法,但在复杂的动态环境中,这些方法往往难以适应。…

gorm 配置数据库

介绍 GORM 是 Go 语言中最流行的 ORM(对象关系映射)库之一,基于数据库操作的封装,提供类似 Django ORM / SQLAlchemy 的开发体验。 特性描述支持多种数据库MySQL、PostgreSQL、SQLite、SQL Server、ClickHouse 等自动迁移自动根…