Puppeteer 浏览器自动化操作工具

pyppeteer 是 Python 版本的 Puppeteer,而 Puppeteer 是由 Google 开发的一个 Node.js 库,用于控制 Chrome 或 Chromium 浏览器。pyppeteer 允许你通过 Python 代码自动化操作浏览器,实现网页爬取、自动化测试、生成截图或 PDF 等功能。

核心功能

  1. 网页自动化操作:模拟用户在浏览器中的各种行为(点击、输入、滚动等)。
  2. 网页内容爬取:获取动态渲染的网页内容(如 JavaScript 加载的数据)。
  3. 生成截图/PDF:将网页保存为图片或 PDF 文件。
  4. 性能分析:分析网页加载性能,生成性能报告。
  5. 自动化测试:模拟用户交互,测试网页功能。

与其他工具的对比

工具语言特点
Selenium多语言需要浏览器驱动(如 ChromeDriver),功能全面但配置复杂。
BeautifulSoupPython仅处理静态 HTML,无法解析动态内容。
ScrapyPython高效的爬虫框架,但无法处理 JavaScript 渲染的内容。
pyppeteerPython直接控制浏览器,无需额外驱动,适合处理复杂动态页面。

基本使用流程

1. 安装
pip install pyppeteer

首次运行时,pyppeteer 会自动下载 Chromium 浏览器(约 100MB)。

2. 简单示例:打开网页并截图
import asyncio
from pyppeteer import launchasync def main():# 启动浏览器browser = await launch()# 创建新页面page = await browser.newPage()# 导航到目标 URLawait page.goto('https://example.com')# 截图await page.screenshot({'path': 'example.png'})# 关闭浏览器await browser.close()# 运行异步函数
asyncio.get_event_loop().run_until_complete(main())
3. 示例:爬取动态内容
import asyncio
from pyppeteer import launchasync def main():browser = await launch()page = await browser.newPage()await page.goto('https://example.com')# 等待特定元素加载完成await page.waitForSelector('.dynamic-content')# 获取元素文本content = await page.querySelectorEval('.dynamic-content', 'el => el.textContent')print(content)await browser.close()asyncio.get_event_loop().run_until_complete(main())

高级用法

1. 模拟用户交互
# 点击按钮
await page.click('button.login')# 输入文本
await page.type('input[name="username"]', 'your_username')# 提交表单
await page.keyboard.press('Enter')
2. 处理弹窗
page.on('dialog', lambda dialog: asyncio.ensure_future(handle_dialog(dialog)))async def handle_dialog(dialog):print(dialog.message)await dialog.accept()  # 或 .dismiss()
3. 执行 JavaScript 代码
# 执行 JS 函数
result = await page.evaluate('() => window.innerWidth')
print(f"浏览器宽度: {result}px")# 获取元素属性
attr = await page.querySelectorEval('img', 'el => el.src')
4. 生成 PDF
await page.pdf({'path': 'page.pdf', 'format': 'A4'})

注意事项

  1. 异步编程pyppeteer 基于 asyncio,所有操作都是异步的,需熟悉 async/await 语法。
  2. 性能考虑:启动浏览器开销较大,建议批量处理任务。
  3. 反爬机制:频繁请求可能触发网站反爬策略,可设置随机 User-Agent 或延时。
  4. 资源释放:确保调用 browser.close() 释放浏览器资源。

应用场景

  • 网页爬虫:抓取动态渲染的内容(如单页应用)。
  • 自动化测试:模拟用户行为,测试网站功能。
  • 生成报告:将网页内容导出为 PDF 或图片。
  • 监控网站:定期检查网站内容变化。
  • 性能优化:分析页面加载时间,识别性能瓶颈。

相关工具

  • puppeteer:原版 Node.js 库,功能更全面。
  • playwright-python:Microsoft 开发的跨浏览器自动化工具,支持 Chrome、Firefox、Safari 等。
  • selenium:老牌自动化测试工具,支持更多浏览器。

如果需要更简洁的 API 或跨浏览器支持,可考虑 playwright-python

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

接口性能测试-工具JMeter的学习

接口登录链接http://111.230.19.204:8080/blog_login.html 一、JMeter基本使用流程 1、启动Jmeter 2、在“测试计划”下添加线程组 3、在“线程组”下添加“HTTP”取样器 4、填写“HTTP请求”的相关请求数据 5、在“线程组”下添加“查看结果树”监听器 6、点击“启动”按钮…

mybatis-plus与jsqlparser共用时报sql解析错误

手动引入jsqlparser-4.6版本,但mybatis-plus中引用为4.4版本 解决方法一: jsqlparser版本与mybatis-plus中引用版本一致。 解决方法而二: 排除掉mybatis-plus中的jsqlparser。

用MMdetection框架训练自己的数据集(全流程实战)

前面我们准备好了COCO格式的数据集:将YOLO格式的数据集转换为mmdetection格式-CSDN博客https://blog.csdn.net/qq_54708219/article/details/148224187?spm1001.2014.3001.5501 下面我们使用MMdetection开始训练。 1.创建新的数据集类 首先,在mmdet/d…

VS Code中Maven未能正确读取`settings.xml`中配置的新路径

在VS Code中Maven未能正确读取settings.xml中配置的新路径,通常是由于以下原因导致的: 一、VS Code未使用你修改的settings.xml文件 VS Code的Maven插件可能使用了默认配置或指向其他settings.xml文件。解决方法: 手动指定settings.xml路径…

2021年认证杯SPSSPRO杯数学建模A题(第二阶段)医学图像的配准全过程文档及程序

2021年认证杯SPSSPRO杯数学建模 A题 医学图像的配准 原题再现: 图像的配准是图像处理领域中的一个典型问题和技术难点,其目的在于比较或融合同一对象在不同条件下获取的图像。例如为了更好地综合多种信息来辨识不同组织或病变,医生可能使用…

RPM之(1)基础使用

RPM之(1)基础使用 Author: Once Day Date: 2025年5月26日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: Linux实践记录_Once-Day的博客-CSDN博客 …

国内可做大批量pcb的工厂有哪些?

在电子产业升级浪潮中,PCB作为电子设备的基础载体,其批量生产能力直接决定着终端产品的市场响应速度与品质稳定性。本文精选五家具备核心竞争力的厂商,从工艺深度、产能规模到服务模式展开剖析,为采购决策提供专业参考。 猎板PCB…

【视频】使用海康SDK保存的MP4无法在浏览器(html5)中播放

1、问题描述 在使用海康 SDK 的 NET_DVR_SaveRealData 接口,将视频流保存成MP4文件后,通过浏览器无法播放MP4,播放其它的MP4正常。 2、原因分析 对比可以正常播放的MP4 和 无法播放的MP4文件,比较它们的详细信息,发…

AI时代新词-生成对抗网络(GAN)

一、什么是生成对抗网络(GAN)? 生成对抗网络(Generative Adversarial Network,简称GAN)是一种由生成器(Generator)和判别器(Discriminator)组成的深度学习模…

使用AutoKeras2.0的AutoModel进行结构化数据回归预测

1、First of All: Read The Fucking Source Code import autokeras as ak import numpy as np from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error# 生成数据集 np.random.seed(42) x np.random.rand(1000, 10) # 生成1…

实战设计模式之访问者模式

概述 访问者模式允许我们在不改变类的前提下,向已有类添加新的功能。简单来说,就是将算法与对象的数据结构进行分离的一种方法。在实际应用中,当我们需要对一组对象执行一些操作,而这些操作又需要随着需求的变化而不断变化时&…

centos7.9使用docker-compose安装kafka

docker-compose配置文件 services:zookeeper:image: confluentinc/cp-zookeeper:7.0.1hostname: zookeepercontainer_name: zookeeperports:- "2181:2181"environment:ZOOKEEPER_CLIENT_PORT: 2181ZOOKEEPER_TICK_TIME: 2000kafka:image: confluentinc/cp-kafka:7.0…

STM32:Modbus通信协议核心解析:关键通信技术

知识点1【 Modbus通信】 1、Modbus的概述 Modbus是OSI模型第七层的应用层报文传输协议 协议:说明有组包和解包的过程 2、通信机制 Modelbus是一个请求/应答协议 通信机制:主机轮询,从机应答的机制。每个从设备有唯一的地址,主…

LeetCode 3362.零数组变换 III:贪心+优先队列+差分数组——清晰题解

【LetMeFly】3362.零数组变换 III:贪心优先队列差分数组——清晰题解 力扣题目链接:https://leetcode.cn/problems/zero-array-transformation-iii/ 给你一个长度为 n 的整数数组 nums 和一个二维数组 queries ,其中 queries[i] [li, ri] …

ORM++ 封装实战指南:安全高效的 C++ MySQL 数据库操作

ORM 封装实战指南:安全高效的 C MySQL 数据库操作 一、环境准备 1.1 依赖安装 # Ubuntu/Debian sudo apt-get install libmysqlclient-dev # CentOS sudo yum install mysql-devel# 编译时链接库 (-I 指定头文件路径 -L 指定库路径) g main.cpp -stdc17 -I/usr/i…

JESD204B 协议介绍

一、协议概述 JESD204B是由JEDEC(固态技术协会)制定的高速串行接口标准,专为模数转换器(ADC)、数模转换器(DAC)与逻辑器件(如FPGA、ASIC)之间的数据传输设计。其核心目标…

yolov8,c++案例汇总

文章目录 引言多目标追踪案例人体姿态估计算法手势姿态估计算法目标分割算法 引言 以下案例,基于c,ncnn,yolov8既可以在windows10/11上部署, 也可以在安卓端部署, 也可以在嵌入式端部署, 服务器端可支持部署封装为DLL,支持c/c#/java端调用 多目标追踪案例 基于yolov8, ncnn,…

运动规划实战案例 | 图解基于状态晶格(State Lattice)的路径规划(附ROS C++/Python仿真)

目录 1 控制采样 vs 状态采样2 State Lattice路径规划2.1 算法流程2.2 Lattice运动基元生成2.3 几何代价函数2.4 运动学约束启发式 3 算法仿真3.1 ROS C仿真3.2 Python仿真 1 控制采样 vs 状态采样 控制采样的技术路线源自经典的运动学建模思想。这种方法将机器人的控制指令空…

BERT框架:自然语言处理的革命性突破

引言 在自然语言处理(NLP)领域,2018年Google推出的BERT(Bidirectional Encoder Representations from Transformers)框架无疑是一场革命。作为基于Transformer架构的双向编码器表示模型,BERT通过预训练学习…

【Fifty Project - D31】

结束了一个超级消耗周末,满安排之健身梅溪湖游泳做饭喝酒羽毛球赛 完全力竭了,久久不能恢复过来,暂停健身安排了 端午后再继续 今日完成记录 TimePlan完成情况7:30 - 8:10有氧爬坡√9:00 - 11:…