更多内容请见: 爬虫和逆向教程-专栏介绍和目录
文章目录
- 一、Ruia概述
- 1.1 Ruia介绍
- 1.2 Ruia特点
- 1.3 安装Ruia
- 1.4 使用案例
- 二、基本使用
- 2.1 Request 请求
- 2.2 Response - 响应
- 2.3 Item - 数据提取
- 2.4 Field 提取数据
- 2.5 Spider - 爬虫类
- 2.6 Middleware - 中间件
- 三、高级功能
- 3.1 并发控制
- 3.2 使用代理
- 3.3 自定义请求
- 3.4 数据处理与存储
- 3.5 异常处理
- 四、实战案例
- 4.1 爬取新闻网站
- 4.2 爬取API数据
- 4.3 豆瓣250这个页面
- 4.4 简单示例:抓取网页标题
Ruia是一个基于asyncio的Python异步爬虫框架,设计简洁优雅,适合快速开发高性能爬虫。以下是Ruia的全面使用。
一、Ruia概述
1.1 Ruia介绍
Ruia是一个基于asyncio和aiohttp的异步爬虫框架,目标在于让开发者编写爬虫尽可能地方便快速。其诞生的核心理念也异常清晰,那就是:
- 更少的代码:能通用的功能就插件化,让开发者直接引用即可
- 更快的速度:由异步驱动
github地址:https://github.com/howie6879/ruia
1.2 Ruia特点
简单: Declarative programming
快速: Powered by asyncio
可拓展: