Python爬虫02_Requests实战网页采集器

一、Request请求伪装解析
#UA:User-Agent(请求载体身份标识)
#UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份呢标识为某一款浏览器,说明该请求是一个正常的请求,
#但是如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示为不正常的请求(爬虫),则服务器端就很有可能拒绝该请求。
#UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器

import requests
#执行UA伪装,写入UA信息,封装到字典中
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'
}
url = 'https://www.sogou.com/web'
#处理url携带的参数:封装到字典中
kw = input('enter a word:')
param = {'query':kw
}
#对指定的url发起的请求对应的url添加携带的参数信息,并且于请求过程中处理了参数,
response = requests.get(url=url,params=param,headers=headers)
page_text = response.text
fileName = kw+'.html'
with open(fileName,'w',encoding='utf-8') as fp:fp.write(page_text)
print(fileName,'保存成功!!!')

二、HTTP请求报文解析
HTTP 请求报文(Request Message)是客户端发给服务器的数据包,通常由 起始行(Start Line)、请求头(Headers) 和 可选的消息体(Body) 三部分组成。
1. 起始行(Start Line)
分为三部分,用空格分隔:
GET /index.html HTTP/1.1
方法(Method):如 GET、POST、PUT、DELETE 等,表示操作类型。
路径(Path):请求的资源路径(如 /index.html),可包含查询参数(如 /api?key=123)。
协议版本(HTTP Version):如 HTTP/1.1 或 HTTP/2。
2. 请求头(Headers)
键值对形式(Key: Value),每行一个,常见字段:

字段名示例值作用说明
Hostwww.example.com目标主机域名(HTTP/1.1 必须字段)
User-AgentMozilla/5.0 (Windows NT 10.0)客户端软件标识
Accepttext/html,application/xhtml+xml客户端能处理的媒体类型
Accept-Encodinggzip, deflate支持的压缩算法
Content-Typeapplication/jsonBody 的数据类型(POST/PUT 必填)
Content-Length348Body 的字节长度
AuthorizationBearer token123身份验证凭证
Cookiesessionid=abc123携带的 Cookie 数据
Cache-Controlno-cache缓存控制策略

3. 消息体(Body)
可选部分,通常用于 POST/PUT 请求,携带实际数据。例如:
表单提交(Content-Type: application/x-www-form-urlencoded):
username=tom&password=123456
JSON 数据(Content-Type: application/json):

{"username": "tom", "password": "123456"}

完整示例:

POST /api/login HTTP/1.1
Host: example.com
User-Agent: curl/7.68.0
Accept: application/json
Content-Type: application/json
Content-Length: 43{"username": "alice", "password": "secret123"}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91455.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91455.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue+elementui实现问卷调查配置可单选、多选、解答

效果&#xff1a;<template> <div><el-form :inline"true" :model"form" :rules"rules" ref"ruleForm"> <el-tabs type"border-card" v-model"cardType"><el-tab-pane name"1&qu…

Docker初学者需要了解的几个知识点(三):Docker引擎与Docker Desktop

Docker引擎与Docker Desktop简单说&#xff1a;Docker 引擎是干活的 “核心工具”&#xff0c;负责实际创建、运行容器&#xff0c;就像汽车的发动机&#xff0c;没它跑不起来。Docker Desktop是个 “套装软件”&#xff0c;它把 Docker 引擎打包进去了&#xff0c;还加了图形化…

Python将Word转换为Excel

现有大量的Word文档&#xff0c;每个文档中有大量的表格&#xff0c;需要将其转换为Excel。 Python处理源码 # 需要安装pip install xlsxwriter import pandas as pd from docx import Document from pathlib import Path from datetime import datetimedef process_docx(filep…

攀爬误报率↓82%!陌讯多模态算法在周界防护的实战解析

​摘要​​ 原创声明 本文解析边缘计算优化下陌讯视觉算法在攀爬识别场景的鲁棒性提升&#xff0c;实测数据来自陌讯技术白皮书&#xff08;2025&#xff09;。针对传统安防系统在复杂光影、姿态变化中的误检问题&#xff0c;重点阐述动态决策机制与轻量化部署方案&#xff0c;…

Redis 存在哪些问题

内存相关问题 1. 内存消耗大 无压缩机制&#xff1a;数据以明文形式存储&#xff0c;占用内存较大元数据开销&#xff1a;每个key-value对都有额外的元数据开销内存碎片&#xff1a;频繁的更新操作可能产生内存碎片 2. 内存容量限制 单机容量受限&#xff1a;受限于单台服务器的…

ECMAScript2025(ES16)新特性

概述 ECMAScript2025于2025年6月26日正式发布&#xff0c; 本文会介绍ECMAScript2025(ES16)&#xff0c;即ECMAScript的第16个版本的新特性。 以下摘自官网&#xff1a;ecma-262 ECMAScript 2025, the 16th edition, added a new Iterator global with associated static and…

Vim 编辑器工作模式及操作指南

Vim 编辑器工作模式及操作指南 一、工作模式概述 Vim编辑器主要包含四种工作模式&#xff0c;分别是&#xff1a; 命令模式&#xff08;默认进入模式&#xff09;输入模式&#xff08;编辑模式&#xff09;末行模式&#xff08;指令模式&#xff09;可视模式 二、模式切换及操作…

Rabbitmq中常见7种模式介绍

p&#xff1a;生成者&#xff0c;生成消息的程序c&#xff1a;消费者&#xff0c;消费消息的程序Queue&#xff1a;消息队列&#xff0c;用于缓存消息&#xff0c;生产者向里面投递消息&#xff0c;消费者从里面拿取消息消费X&#xff1a;交换机&#xff0c;在rabbitMQ中&#…

SpringAI 1.0.0发布:打造企业级智能聊天应用

官方文档 gitee的demo 1、前言 2025年5月&#xff0c;SpringAI 1.0.0终于正式发布。这不仅是另一个普通的库&#xff0c;更是将Java和Spring推向AI革命前沿的战略性举措。给Java生态带来了强大且全面的AI工程解决方案。众多企业级应用在SpringBoot上运行关键业务&#xff0c…

全球各界关注与讨论鸽姆智库的多维视角分析​

【摘要】全球各界对鸽姆智库的关注与讨论主要集中在以下多维视角&#xff1a; 一、技术创新维度 ‌通用思维框架&#xff08;GTF&#xff09;与中文智慧编程系统&#xff08;CWPS&#xff09;‌ GTF通过模拟人类格式塔认知&#xff0c;实现模式补全与图形-背景分离功能&#xf…

1️⃣4️⃣ OOP:类、封装、继承、多态

文章目录一、类与实例&#xff1a;从抽象到具体1️⃣ 类&#xff08;Class&#xff09;&#xff1a;抽象的模板2️⃣ 实例&#xff08;Instance&#xff09;&#xff1a;具体的对象3️⃣ __init__ 方法&#xff1a;初始化实例属性二、封装&#xff1a;数据与逻辑的“打包”1️⃣…

静态链接 qt 失败

配置静态构建 qt 如下所示&#xff0c;执行配置的时候添加 -static 选项即可。 $skiped_modules ("qttools""qtdoc""qttranslations""qtlanguageserver""qtdeclarative""qtquicktimeline""qtquick3d"…

Qt 多线程界面更新策略

在Qt开发中&#xff0c;界面&#xff08;UI&#xff09;更新是高频操作——无论是后台任务的进度展示、传感器数据的实时刷新&#xff0c;还是网络消息的即时显示&#xff0c;都需要动态更新界面元素。但Qt对UI操作有一个核心限制&#xff1a;所有UI组件的创建和更新必须在主线…

1.09---区块链节点到底做了什么?从全节点到轻客户端

鲲志博主出品 Web2 开发者的 Web3 修炼之路 ➡️【好看的灵魂千篇一律,有趣的鲲志一百六七!】- 欢迎认识我~~ 作者:鲲志说 (公众号、B站同名,视频号:鲲志说996) 科技博主:极星会 星辉大使 全栈研发:java、go、python、ts,前电商、现web3 主理人:COC杭州开发者…

Linux线程概念与控制(下)

目录 前言 2.线程控制 1.验证理论 2.引入pthread线程库 3.linux线程控制的接口 3.线程id及进程地址空间布局 4.线程栈 前言 本篇是紧接着上一篇的内容&#xff0c;在有了相关线程概念的基础之上&#xff0c;我们将要学习线程控制相关话题&#xff01;&#xff01; 2.线程…

力扣面试150题--只出现一次的数字

Day 91 题目描述## 思路 交换律&#xff1a;a ^ b ^ c <> a ^ c ^ b 任何数于0异或为任何数 0 ^ n > n 相同的数异或为0: n ^ n > 0 根据以上 很容易想到做法&#xff0c;将数组中所有的数异或起来&#xff0c;得到的就是只出现一次的数 class Solution {public in…

【运维基础】Linux 进程调度管理

Linux 进程调度管理 进程调度器 现代计算机系统中既包含只有单个CPU且任何时候都只能处理单个指令的低端系统到具有几百个cpu、每个cpu有多个核心的高性能超级计算机&#xff0c;可以并行执行几百个指令。所有这些系统都有一个共同点&#xff1a;系统进程线程数量超出了CPU数量…

深度学习篇---层与层之间搭配

在深度学习中&#xff0c;各种层&#xff08;比如卷积层、激活函数、池化层等&#xff09;的搭配不是随意的&#xff0c;而是像 “搭积木” 一样有规律 —— 每一层的作用互补&#xff0c;组合起来能高效提取特征、稳定训练&#xff0c;最终提升模型性能。下面用通俗易懂的方式…

服务器多线主要是指什么?

在数字化的网络环境当中&#xff0c;服务器已经成为各个企业提升线上业务发展的重要网络设备&#xff0c;其中服务器多线则是指一台服务器中能够同时接入多个网络运营商&#xff0c;并且通过智能路由技术实现用户访问请求的自动化分配&#xff0c;大大提高了用户访问数据信息的…

从0到1学PHP(三):PHP 流程控制:掌控程序的走向

目录一、条件语句&#xff1a;程序的 “抉择路口”1.1 if 语句家族&#xff1a;基础与进阶1.2 switch 语句&#xff1a;精准匹配的 “导航仪”二、循环语句&#xff1a;程序的 “重复舞步”2.1 for 循环&#xff1a;有序的 “征程”2.2 while 与 do - while 循环&#xff1a;条…