一、crawl4ai 框架简介
1. 框架定位
-
核心功能:基于Python的智能爬虫框架,集成AI(如NLP/OCR)实现自动化数据采集与处理
-
关键特性:
-
零配置快速启动(自动识别网页结构)
-
内置反反爬机制(自动轮换UA/IP)
-
AI辅助解析(处理验证码/动态内容)
-
2. 技术栈组成
3.了解更多请点击github官方地址
二、环境准备
1. 安装框架
# 安装核心库(需Python≥3.8)
pip install crawl4ai# 可选:安装AI扩展包
pip install "crawl4ai[ai]" # 包含OCR/NLP依赖
2. 验证安装
import craw14ai
print(craw14ai.__version__) # 应输出类似 0.2.1
三、实战项目:智能新闻采集系统
目标:自动抓取新闻网站标题/正文/发布时间,并提取关键词
步骤1:创建基础爬虫
from crawl4ai import SmartSpider# 初始化爬虫(自动加载默认配置)
spider = SmartSpider(name="news_crawler",ai_support=True # 启用AI辅助
)# 添加种子URL(示例:BBC新闻科技版)
spider.add_seeds(["https://www.bbc.com/news/technology"])
步骤2:定义抓取规则(AI自动学习模式)
# 启用智能模式自动分析页面结构
spider.learn(target_elements=["title", "article", "publish_time"],sample_url="https://www.bbc.com/news/technology-12345678" # 提供样例页面
)
步骤3:运行并保存数据
# 启动爬虫(限制10页)
results = spider.crawl(max_pages=10)# 保存为JSON文件
import json
with open('news.json', 'w') as f:json.dump(results, f, indent=2)
步骤4:AI增强处理
# 提取新闻关键词(需安装AI扩展)
from crawl4ai.ai import NLPProcessornlp = NLPProcessor()
for news in results:news['keywords'] = nlp.extract_keywords(news['article'])print(f"标题:{news['title']}\n关键词:{news['keywords'][:3]}\n")
四、进阶功能示例
1. 处理验证码
spider = SmartSpider(anti_captcha=True, # 自动调用内置OCRcaptcha_config={'type': 'image', # 支持reCAPTCHA/hCaptcha'timeout': 15 # 超时设置}
)
2. 动态渲染页面
spider.render(engine='playwright', # 可选seleniumwait_for=".article-content", # 等待元素加载screenshot=True # 截图存档
)
3. 数据清洗管道
# 自定义处理钩子
def clean_date(raw_date):from datetime import datetimereturn datetime.strptime(raw_date, "%d %B %Y").isoformat()spider.add_pipeline(field="publish_time",processor=clean_date
)
五、调试技巧
-
日志查看:
spider.set_log_level('DEBUG') # 显示详细请求过程
-
保存中间结果:
spider.enable_cache('cache_dir') # 断点续爬
-
性能监控:
watch -n 1 "ls -lh data.json" # 实时查看数据增长
六、项目结构建议
/news_crawler
├── config/ # 配置文件
│ └── proxies.txt # 代理IP列表
├── outputs/ # 数据输出
├── spiders/ # 爬虫逻辑
│ └── bbc_news.py
└── requirements.txt
常见问题解决
-
被封IP:
启用代理池spider.set_proxies(file='config/proxies.txt')
-
元素定位失败:
使用AI辅助定位spider.find_ai(element_description='新闻正文')
-
动态加载内容:
开启渲染spider.render(engine='playwright')