用深度学习提升DOM解析——自动提取页面关键区块

爬虫代理

一、时间轴:一次“抓不到重点”的二手车数据爬虫事故

  • 2025/03/18 09:00
    产品经理希望抓取懂车帝平台上“北京地区二手车报价”作为竞品监测数据源。我们初步使用传统XPath方案,试图提取车型、年限、里程、价格等数据。
  • 2025/03/18 10:00
    初版脚本运行失败,返回的数据全是空值,XPath定位的路径在页面中根本不存在。
  • 2025/03/18 11:00
    检查HTML源代码发现,页面由**前端异步渲染(JavaScript动态生成)**构建,传统静态DOM无法解析真实内容。
  • 2025/03/18 14:00
    改用Playwright模拟浏览器渲染,成功获取完整DOM。但新的问题是:页面结构复杂、不稳定,多个汽车列表卡片并非结构统一,手动XPath依旧容易出错。
  • 2025/03/19 10:00
    启动深度学习方案:利用预训练模型BERT对HTML做块级语义识别,自动提取“车卡片”结构与核心字段。

二、方案分析:XPath失效 vs 语义块提取

1. 初始方案失败原因

  • 页面为前端渲染(SPA架构),传统的requests + XPath方案根本无法加载数据;
  • 即使用Playwright动态渲染后获取HTML,汽车信息DOM结构依旧不稳定,嵌套层级深,XPath脆弱;
  • 页面存在部分反爬机制(navigator.webdriver特征、IP频控、UA检测),需解决隐藏身份问题。

2. 深度学习方案构思

  • 将完整HTML节点转为token序列(含标签结构+文本);
  • 使用BERT或LayoutLM模型对DOM节点进行语义分类,标注“车卡片”、“车型名”、“报价”等字段;
  • 利用位置+标签结构配合抽取规则,提高抗变动能力;
  • 构建领域微调训练样本,通过正则与标注相结合构建少量训练集。

三、架构改进方案:深度语义解析 + 隐身身份访问

以下是优化后的爬虫架构,融合了:

  • Playwright动态渲染页面
  • 代理IP隐藏身份(爬虫代理)
  • 设置cookie与user-agent
  • 调用深度学习模块提取语义块

✅ 示例代码如下:

import asyncio
from playwright.async_api import async_playwright
import base64
import json
import torch
from transformers import BertTokenizer, BertForTokenClassification
from typing import List# === 亿牛云代理配置 www.16yun.cn ===
PROXY_SERVER = "http://proxy.16yun.cn:3100"
PROXY_USERNAME = "16YUN"
PROXY_PASSWORD = "16IP"# Base64编码代理身份
def get_proxy_auth():credentials = f"{PROXY_USERNAME}:{PROXY_PASSWORD}"return "Basic " + base64.b64encode(credentials.encode()).decode()# === 深度学习模型加载(模拟)===
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
model = BertForTokenClassification.from_pretrained("bert-base-chinese")def predict_blocks(text_list: List[str]) -> List[str]:"""使用BERT模拟DOM区块分类输入:文本列表(如标签+内容组成)输出:每个文本的分类结果,如[车型] [年限] [报价]"""inputs = tokenizer(text_list, return_tensors="pt", padding=True, truncation=True)with torch.no_grad():outputs = model(**inputs).logitspredictions = torch.argmax(outputs, dim=-1)labels = [model.config.id2label[idx.item()] for idx in predictions[0]]return labels# === Playwright爬虫主流程 ===
async def main():async with async_playwright() as p:browser = await p.chromium.launch(headless=True)# 启动代理 + 设置UA和Cookiecontext = await browser.new_context(proxy={"server": PROXY_SERVER},user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/122.0.0.0 Safari/537.36",extra_http_headers={"Proxy-Authorization": get_proxy_auth(),"Cookie": "your_cookie_here"  # 真实抓包填入cookie})page = await context.new_page()# 搜索“北京二手车”await page.goto("https://www.dongchedi.com/usedcar/search?city_name=%E5%8C%97%E4%BA%AC")await page.wait_for_timeout(5000)  # 等待JS加载完# 提取页面HTMLhtml = await page.content()# 简化提取所有车卡片文本(真实项目中解析DOM结构)elements = await page.query_selector_all("div.CarCard_card__...")  # 选择器根据真实页面调整for el in elements:text = await el.inner_text()label = predict_blocks([text])[0]print(f"[{label}] {text}")await browser.close()asyncio.run(main())

四、总结与优化建议

📌 深度学习DOM解析优点:

  • 抗结构变化能力强,不再依赖脆弱的XPath;
  • 适合复杂网页(如懂车帝、汽车之家等)中提取卡片、列表、评论等区域;
  • 可结合小样本微调适应特定领域,如二手车、新闻等。

⚙️ 技术架构演进图

[静态爬虫Requests+XPath] ──> [动态爬虫Playwright+XPath] ──> [Playwright+DOM语义BERT]❌失效                          ⚠️结构脆弱                     ✅语义提取,稳定高效

附加建议

  • 如需更高精度,可构建100~300条有标注数据微调BERT;
  • 可加入图神经网络(如DOM-GCN)提升DOM上下文理解;
  • 建议结合VisualDOM信息(元素位置+截图)形成多模态提取模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React与Vue的内置指令对比

React 与 Vue 不同,它没有内置的模板指令系统。React 采用了 JavaScript 优先 的声明式方式,使用 JSX 语法将 HTML 和 JavaScript 结合在一起。因此,React 中没有类似 Vue 的 v-if、v-for、v-bind 等内置指令。 React 中的替代方案 条件渲染…

Spring声明式事务源码全链路剖析与设计模式深度解读

Spring声明式事务源码全链路剖析与设计模式深度解读 作者:AI 日期:2025-05-22 一、前言 Spring事务是企业级开发的基石,但“为什么有时事务失效?”、“不同传播行为背后发生了什么?”、“Spring事务源码到底如何实现&…

云原生安全基础:深入探讨容器化环境中的权限隔离与加固策略

🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 在云原生环境中,容器化技术(如 Docker 和 Kubernetes)的广泛应用带来了灵活性与效率,但也引入了新的安全挑…

如何在 ONLYOFFICE 演示文稿中调整段落首行缩进

在制作演示文稿时,保持内容的一致性与可读性至关重要,而段落首行缩进作为格式设置的关键环节,直接影响着整体呈现效果。在本文中,我们将介绍如何通过创建 ONLYOFFICE 宏,快速设置演示文稿中所有段落的首行缩进。 关于 …

[Asp.Net]GridView、Repeater 导出Excel长数字显示成科学计数

类似身份证纯数字的格式时 ,excel默认是数字格式 变成了科学计数法 , GridView:RowDataBound 添加e.Row.Cells[2].Attributes.Add(“style”, “vnd.ms-excel.numberformat:;”); protected void GridView1_RowDataBound(object sender, GridViewRowE…

Ntfs!NtfsReadBootSector函数分析之nt!CcGetVacbMiss中得到一个nt!_VACB结构

第一部分: 1: kd> g Breakpoint 3 hit nt!CcGetVacbMiss: 80a1a19e 6a30 push 30h 1: kd> kc # 00 nt!CcGetVacbMiss 01 nt!CcGetVirtualAddress 02 nt!CcMapData 03 Ntfs!NtfsMapStream 04 Ntfs!NtfsReadBootSector Ntfs…

Linux10正式版发布,拥抱AI了!

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验 Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯…

关于 SSE(Server-Sent Events)过程的简要解剖

Js前端:发送普通请求 fetch(...) .then(()>{}) .catch(()>{})Java后端:接收请求后调用请求处理函数,函数返回一个emiiter对象 public SseEmitter handleRequest(...) {// 创建一个 SseEmitter 对象,用于发送 SSE 事件SseE…

PyTorch 中unsqueeze(-1)用法

unsqueeze(-1) 是 PyTorch 中的一个张量操作,用于‌在指定维度上增加一个长度为1的维度‌(即扩展维度)。具体解析如下: 功能说明 ‌作用位置‌ -1 表示在张量的‌最后一个维度‌后添加新维度。 (等价于 dimlen(tensor.…

RTC技术

什么是RTC RTC(Real time communication)实时通信,是实时音视频的一个简称,我们常说的RTC技术一般指的是WebRTC技术,已经被 W3C 和 IETF 发布为正式标准。由于几乎所有主流浏览器都支持 WebRTC 标准 API ,…

vue+cesium示例:3Dtiles三维模型高度调整(附源码下载)

接到一位知识星友的邀请,实现他需要3Dtiles三维模型的简单高度调整需求,适合学习Cesium与前端框架结合开发3D可视化项目。 demo源码运行环境以及配置 运行环境:依赖Node安装环境,demo本地Node版本:推荐v18。 运行工具:…

详解3DGS

4 可微分的3D高斯 splatting 核心目标与表示选择 我们的目标是从无法线的稀疏SfM点出发,优化出一种能够实现高质量新视角合成的场景表示。为此,我们选择3D高斯作为基本图元,它兼具可微分的体表示特性和非结构化的显式表示优势,既…

构建版本没mac上传APP方法

在苹果开发者的app store connect上架Ios应用的时候,发现需要使用xode等软件来上传iOS的APP。 但是不管是xcode也好,transporter也好,还是命令行工具也好,都必须安装在mac电脑才能使用,。 假如没有mac电脑&#xff0…

Gitee PPM:智能化项目管理如何重塑软件工厂的未来格局

在数字化转型浪潮席卷全球的当下,软件开发行业正经历着前所未有的变革。随着企业项目复杂度呈指数级增长,传统项目管理方式已难以应对多项目并行、跨团队协作等挑战。Gitee项目组合管理(PPM)作为新一代智能化项目管理解决方案&…

node入门:安装和npm使用

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、安装npm命令nvm 前言 因为学习vue接触的,一直以为node是和vue绑定的,还以为vue跑起来必须要node,后续发现并不是。 看…

单例模式,饿汉式,懒汉式,在java和spring中的体现

目录 饿汉式单例模式 懒汉式单例模式 Spring中的单例模式 关键差异对比 在Java和Spring中的应用场景 手写案例 单例模式是一种创建型设计模式,其核心在于确保一个类仅有一个实例,并提供一个全局访问点来获取该实例。下面将详细介绍饿汉式和懒汉式…

网络编程——UDP网络编程

文章目录 1、sendto(),recvfrom() 与TCP编程不同的是: 无需建立连接,在recvfrom()阻塞等待客户端的数据,收到数据后进入do something进行数据的处理。 1、sendto(),recvfrom() ssize_t sendto(int socket, void *mes…

OpenSSL详解

这里写目录标题 选项:**通用选项:**1. genrsa:生成RSA密钥对3. req:生成证书签名请求4. x509:生成自签名证书 **证书管理:**1. verify:验证证书2. x509:查看证书详情3. crl&#xff…

MySQL的日志和备份

目录 一. MySQL的日志 1.1 日志的作用 1.2 日志的分类 1.3 事务日志 1.4 错误日志 1.5 通用日志 1.6 慢查询日志 1.7 二进制备份 二. 备份 2.1 数据备份的重要性 2.2 备份的分类 2.3 MySQL备份的内容 2.4 备份的注意点 2.5 备份的工具 2.6 实战案例 2.7 mysql…

前端性能优化:如何让网页加载更快?

摘要 想象一下,满心期待点开一个网页,却等了十几秒还卡在加载界面,你是不是瞬间就想关掉走人?这可不是个别用户的 “急性子”,数据显示,网页每多延迟 1 秒,用户流失率可能增加 11%!…