1 引言
1.1 研究背景
互联网数据已成为商业决策、学术研究的核心资源,网络爬虫作为数据获取的主要工具,在静态网页时代发挥了重要作用。然而,随着 AJAX、React、Vue 等技术的广泛应用,超过 70% 的主流网站采用 JavaScript 动态生成内容(如商品列表滚动加载、评论分页加载等)。传统爬虫(如基于 Requests+BeautifulSoup 的方案)仅能获取初始 HTML 源码,无法解析动态生成的 DOM 元素,导致数据缺失。
现有动态网页爬取方案存在明显局限:Selenium、Pyppeteer 等工具通过模拟浏览器渲染,虽能处理动态内容,但启动浏览器进程会消耗大量内存(单实例内存占用约 500MB),且爬取效率低(单页面加载耗时 3-5 秒);直接分析 AJAX 接口虽高效,但接口参数加密、反爬机制(如签名验证)增加了破解难度。
python-spidermonkey 作为轻量级 JavaScript 引擎绑定库,可在 Python 环境中直接执行 JavaScript 代码(内存占用仅约 50MB),无需启动浏览器,为平衡效率与兼容性提供了新思路。