Scrapy | 通过爬取豆瓣Top250电影信息来学习在中间件中应用随机请求头和代理ip

中间件的使用

    • 1.scrapyl中间件的分类和作用
      • 1.1 scrapy中间件的分类
      • 1.2 scrapy中间的作用:预处理request和response对象
    • 2.下载中间件的使用方法:
    • 3.定义实现随机User-Agent的下载中间件
      • 3.1 实战:爬取豆瓣Top250电影信息
      • 3.2 中间件使用实现随机User-Agent
    • 4. 代理ip的使用
      • 4.1思路分析
      • 4.2 代码实现
        • 代码:base64.b64encode(auth.encode()).decode()
    • 5. 在中间件中使用selenium - 未实现 了解即可
      • 5.1分析网页数据格式
      • 5.2 selenium中间件的使用 ⭐

  • 目标

1.应用scrapy中使用间件使用随机UA的方法
2.应用scrapy中使用代理ip的的方法
3.应用scrapy.与selenium配合使用

1.scrapyl中间件的分类和作用

1.1 scrapy中间件的分类

根据scrapyi运行流程中所在位置不同分为:

1.下载中间件
2.爬虫中间件

在这里插入图片描述

1.2 scrapy中间的作用:预处理request和response对象

1.对header以及cookie进行更换和处理
2.使用代理ip等
3.对请求进行定制化操作,

但在scrapy默认的情况下两种中间件都在middlewares.py一个文件中
爬虫中间件使用方法和下载中间件相同,且功能重复,通常使用下载中间件

2.下载中间件的使用方法:

接下来我们对腾讯招聘爬虫进行修改完善,通过下载中间件来学习如何使用中间件编写一个 Downloader Middlewares和我们编写一个pipeline一样,定义一个类,然后在setting中开启

1.在middlerware.py中定义中间件类
2.在中间件类中,重写处理清求或者响应的方法
3.在settings文件中开启中间件的使用

Downloader Middlewares默认的方法:process_request(self,request,spider):1.当每个requesti通过下载中间件时,该方法被调用。2.返回None值:没有return也是返回None,该request对象传递给下载器,或通过引擎传递给其他权重低的process,_request方法3.返回Response对象:不再请求,把response返回给引繁4.返回Request对象:把request对象通过引擎交给调度器,此时将不通过其他权重低的process_request方法protess_response(self,request,response,spider):1.当下载器完成http请求,传递响应给引擎的时候调用2.返回Resposne:通过引擎交给爬虫处理或交给权重更低的其他下载中间件的process_response方法3.返回Request对象:通过引擎交给调取器继续请求,此时将不通过其他权重低的process_request方法在settings.py中配置开启中间件,权重值越小越优先执行

3.定义实现随机User-Agent的下载中间件

3.1 实战:爬取豆瓣Top250电影信息

  • 网页分析
    在这里插入图片描述
    在这里插入图片描述
  • 代码

记得在settings.py设置User-Agent和ROBOTSTXT_OBEY,否则会报403错误

# items.py
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass DoubanItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()info = scrapy.Field()score = scrapy.Field()desc = scrapy.Field()pass

import scrapy
from douban.items import DoubanItemclass MovieSpider(scrapy.Spider):name = 'movie'allowed_domains = ['douban.com']start_urls = ['https://movie.douban.com/top250']def parse(self, response):node_list = response.xpath('//div[@class="info"]')# print(len(node_list))for node in node_list:item = DoubanItem()item['name'] = node.xpath('./div[1]/a/span[1]/text()').get()item['info'] = node.xpath('./div[@class="bd"]/p[1]/text()')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85975.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】深度学习入门:从理论到实践的全面指南

深度学习入门:从理论到实践的全面指南 深度学习:开启人工智能新时代的钥匙一、深度学习的广泛应用场景1.1 改变生活的深度学习应用1.2 行业变革案例深度解析案例一:深度学习检测皮肤癌案例二:移动端OCR技术突破案例三:…

MySQL 数据库操作完整指南

MySQL 数据库操作完整指南 目录 创建数据库 连接数据库 创建表 约束详解 插入数据 查询数据 多表联合查询 连接查询 高级查询 更新数据 删除数据 视图详解 存储过程详解 函数详解 触发器 事务处理 索引优化 安全性管理 备份和恢复 性能优化 删除表和数据库 1. 创建数据库 基…

Java面试复习:面向对象编程、Java 8新特性与Spring

Java面试复习:面向对象编程、Java 8新特性与Spring 面向对象编程 概念解析:面向对象编程(OOP)是将现实世界中的概念抽象为软件模型的编程范式,包括封装、继承和多态。 核心原理: 封装:通过访…

蓝牙数据通讯,实现内网电脑访问外网电脑

最近突然想到了一个可以绕开单位安全管控软件,让单位内部办公电脑连上外网的方法。大概是这个样子,让单位办公电脑与自己的外网电脑进行蓝牙配对,然后用配对成功的蓝牙进行网络数据交互。这里大家可能会想用一下蓝牙的网络共享功能&#xff0…

硬件面经-具身机器人通用技术要求

目录 简介 场景 技术面试 设计知识点 总结 简介 最近机器人特别的火。所以收集了一些关于机器人的面试及要求 场景 目前具身机器人赛道可谓是十分火热,全国大大小小崛起了几十家具身机器人公司,国外比较出名的有波士顿动力,特斯拉等,国内目前比较火的就是宇树,众擎…

DeepSeek生成HTML5图片拼接工具

让DeepSeek生成一个HTML5图片拼接工具,给的提示词如下 提示词(prompt) 帮我生成一个可以将两张图片拼接到一起的程序 支持横向拼接和竖向拼接,可以用html5实现功能吗? DeepSeek大概20秒左右就做好了,而且像这么简单的功能的话也没…

Java面试复习指南:Java基础、面向对象编程与并发编程

Java面试复习指南:Java基础、面向对象编程与并发编程 1. Java基础 概念解析: Java是一种面向对象的编程语言,具有跨平台的特性。 核心原理: JVM负责Java程序的跨平台运行,通过字节码来实现。 高频面试问题: Java如何实现跨平台&#xff…

LeeCode2566替换一个数字后的最大差值

项目场景: 给你一个整数 num 。你知道 Danny Mittal 会偷偷将 0 到 9 中的一个数字 替换 成另一个数字。 请你返回将 num 中 恰好一个 数字进行替换后,得到的最大值和最小值的差为多少。 注意: 当 Danny 将一个数字 d1 替换成另一个数字 …

李宏毅2025《机器学习》第三讲-AI的脑科学

在之前的课程中探讨了如何利用大模型构建AI Agent,本科将暂时放下应用层面的探索,拿起“手术刀”和“显微镜”,深入剖析LLM的“大脑”,带您踏上一场“AI脑神经科学”的旅程。课程不讨论模型的训练过程,而是假设我们拥有一个已经训练好的、功能完备的LLM。我们的目标是:理…

CVPR 2025 | 微米级光影CT精度!复旦腾讯优图开源Real-IAD D³数据集

【导读】 本文介绍了复旦联合腾讯优图发布高精度多模态数据集Real-IAD D,并基于此数据集提出了一种创新的多模态融合检测方法,数据集已被CVPR 2025收录,并开源。>>更多资讯可加入CV技术群获取了解哦~ 目录 一、Real-IAD D的创新之处…

解决mysql左连接加where就不会保留左表中的全部数据的问题

在SQL中使用MySQL的LEFT JOIN操作时,如果加入了WHERE条件,确实会影响结果集的完整性,特别是如果你在WHERE条件中使用了JOIN的另一张表中的字段作为过滤条件。这是因为当你在WHERE子句中加入了对JOIN另一张表的过滤条件时,实际上你是在执行一个INNER JOIN(内连接)而非LEFT…

算法与数据结构:动态规划DP

文章目录 动态规划算法全面解析一、核心思想与基本概念二、动态规划与其他算法的区别三、动态规划的解题步骤四、经典案例解析1. **斐波那契数列(Fibonacci)**2. **0-1背包问题(0-1 Knapsack)**3. **最长公共子序列(LC…

Coilcraft电感上的横线是什么意思?电感有方向么?

通常我们会认为电容、电感、电阻这几类无源器件没有方向性,在布局和贴片时可以任意方向放置,也不会在PCB上增加丝印标识说明其方向。与此相互印证的是,电容表面无丝印,无法识别方向;电阻表面一般只有包含阻值大小的数字…

通过Docker挂载nginx并修改页面

1:通过docker创建nginx: 首先关闭原来的Docker(防止端口号冲突) sudo nginx -s stop 直接启动 Nginx 进程 sudo nginx 启动nginx: docker run -di --namemynginx -p 80:80 nginx cd /etc/nginx docker run -d …

力扣1124. 表现良好的最长时间段

这一题我看到数据范围是10^4,暗自窃喜能用双重循环,看题目是典型的前缀和哈希。不过需要一个转换将大于8小时的转化为1,其他都为-1,方便计算,之前的题目中也有这种方法。 那这样就简单了 class Solution { public:int…

EDA2算法速通(编者崩溃版)

这个内容是用来回忆一下EDA2涉及的算法和解题的主要步骤: 有疑问或发现错误可以私信来讨论 高级综合概述 柏拉图优化:这个是来判断是否有哪些节点能完全被其他节点优化掉。比如(1,2)这个节点就可以完全优化(3,4&…

雷池waf配置第三方登录-钉钉配置详细教程

雷池waf配置第三方登录-钉钉配置详细教程 前往钉钉开放平台https://open.dingtalk.com/ 选择一个登录方式登录钉钉开放平台 选择一个自己所管理的组织 登录成功后点击我的后台 选择应用开发 在钉钉应用下点击创建应用 填写应用名称和应用描述后点击保存 点击网页…

神经网络中的均方误差(Mean Squared Error)详解

引言 在机器学习和神经网络领域,损失函数(Loss Function)是衡量模型预测值与真实值之间差异的关键指标。均方误差(Mean Squared Error, MSE)作为一种经典的损失函数,因其简单性、可解释性和数学上的优良性…

day036-lsyncd实时同步服务与网站存储架构

文章目录 1. 实时同步工具2. lsyncd 实时同步服务2.1 环境准备2.2 rsync准备2.2.1 服务端检查2.2.2 客户端检查2.2.3 备份测试 2.3 配置lsyncd2.3.1 安装软件2.3.2 编写配置文件 2.4 测试 3. 案例-网站存储架构3.1 rsync服务配置3.1.1 服务端配置3.1.2 客户端配置 3.2 lsyncd服…

React Native WebView键盘难题:如何让输入框不被键盘遮挡?

写在前面 “明明点击了输入框,键盘却把内容顶得不见踪影!” —— 这可能是React Native开发者使用WebView时最头疼的问题之一。 想象一下:你的App内嵌了一个网页表单,用户兴奋地准备填写信息,结果键盘弹出后&#xf…