参考文献:
Python爬虫入门(一)(适合初学者)-CSDN博客
一、常用爬虫工具包
-
Scrapy
- 语言: Python
- 特点: 高效、灵活的爬虫框架,适合大型爬虫项目。
-
BeautifulSoup
- 语言: Python
- 特点: 用于解析HTML和XML,简单易用。
-
Selenium
- 语言: Python/Java/C#
- 特点: 支持浏览器自动化,适合处理JavaScript渲染的网页。
-
Requests
- 语言: Python
- 特点: 简单的HTTP请求库,适合轻量级爬虫。
-
Puppeteer
- 语言: JavaScript
- 特点: 无头浏览器工具,适合处理动态网页内容。
-
Node.js + Request/Axios
- 语言: JavaScript
- 特点: 适合构建快速、高效的爬虫。
-
wget
- 语言: 命令行工具
- 特点: 简单的文件下载工具,适合抓取静态资源。
-
curl
- 语言: 命令行工具
- 特点: 用于发送HTTP请求,适合测试和简单抓取。
-
rapyuta.io
- 特点: 在线爬虫工具,支持多种网站的抓取和分析。
二、Scrapy 学习
参考:
Scrapy爬虫框架实战_scrapy实战-CSDN博客
1、创建一个scrapy项目
上文中是一个电子书网站
(1)安装scrapy
使用命令行工具
pip install Scrapy
(2)创建项目 项目名称可以改变 这里的项目名称是getbooks
scrapy startproject XXX
(3)创建一个爬虫,比如目标网站kgbook.com,注意要先转到刚才的项目 目录下
cd getbooks
scrapy genspider getkgbook kgbook.com