1. 引言
1.1 研究背景
据 Statista 数据,2025 年全球互联网数据总量将突破 175ZB,其中 80% 为非结构化数据(网页、文本、图像等)。高效提取这些数据对企业竞争情报、学术研究至关重要。网络爬虫作为数据获取的核心工具,经历了从静态页面抓取到动态内容解析的演进,但传统开发模式存在明显局限:
- 适配性差:针对不同网站需编写专属爬虫代码,复用率低;
- 维护成本高:目标网站结构变更(如标签调整、JS 渲染升级)时,需重新开发解析逻辑;
- 技术门槛高:非开发人员难以参与爬虫配置与调整。
django-dynamic-scraper 框架的出现为解决上述问题提供了新思路。该框架将 Django 的后台管理能力与 Scrapy 的爬虫引擎结合,支持通过数据库配置爬虫规则,实现 "零代码" 调整抓取逻辑,大幅降低维护成本。