Python爬虫08_Requests聚焦批量爬取图片

一、Requests聚焦批量爬取图片

import re
import requests
import os
import timeurl = 'https://www.douban.com/'
userAgent = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'}#获取整个浏览页面
page_text = requests.get(url=url,headers=userAgent).text#提取图片链接,分两次特征提取并合并至一个列表中
ex1 = re.compile(r'<img src="(.*?)" data-origin="')
ex2 = re.compile(r'" data-origin="(.*?)" alt.*?')
img_data1 = ex1.findall(page_text)
img_data2 = ex2.findall(page_text)
#合并至一个列表中
for one in img_data2:img_data1.append(one)#设定图片存储路径,判断路径是否存在,不存在则自动创建
if not os.path.exists('E:/Reptile/douban'):os.mkdir('E:/Reptile/douban')#循环向列表中的图片链接发起请求并保存图片
for two in img_data1:ex3 = re.compile(r'^http')#判断以http开头的链接才会发起get请求if ex3.findall(two):#设定图片保存名字,以时间戳方式进行命名photo_time1 = time.time() + 1photo_time2 = str(photo_time1)#通过图片所在链接发起get请求,并伪装UAphoto_data = requests.get(two,headers=userAgent).content#提取原图片的后缀名,采用字符串分割方式photo_extension = two.split('.')[-1]#设定图片的最终文件名photo_names = photo_time2 + '.' + photo_extension#设定图片的最终保存位置photo_path = 'E:/Reptile/douban/' + photo_names#保存图片with open(photo_path,'wb') as fp:fp.write(photo_data)print(photo_names,"下载成功!!!")
print('爬取结束,over!!!')

二、批量爬取图片方式正则匹配解析

采用正则表达式,提取页面中所包含的所有图片链接,正则表达式采用re库,解析如下:
1、必备模块与基本调用

import re# 1. 一次性匹配
m = re.search(r'(\d{4})-(\d{2})-(\d{2})', '2025-08-05')
if m:print(m.group(0))   # 2025-08-05print(m.group(1))   # 2025# 2. 预编译(推荐,速度快、可复用)
pat = re.compile(r'(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})')
m = pat.search('2025-08-05')
print(m.groupdict())   # {'year': '2025', 'month': '08', 'day': '05'}# 3. 全局查找
pat.findall('2025-08-05, 2026-12-30')   # [('2025','08','05'), ('2026','12','30')]# 4. 全局替换
new = pat.sub(r'\2/\3/\1', '2025-08-05')  # 08/05/2025

2、常见函数对照表

需求一次性预编译对象方法
搜索第一个匹配re.search()p.search()
从头开始必须完全匹配re.match()p.match()
找到所有匹配(列表/迭代器)re.findall()p.findall()
找到所有 match 对象re.finditer()p.finditer()
拆分字符串re.split()p.split()
替换re.sub() / re.subn()p.sub() / p.subn()
3、重点语法速记
1.基本元字符
. 任意字符,^ 开头,$ 结尾,* 0 次或多次,+ 1 次或多次,? 0/1 次或“非贪婪”。
2.字符集与反义
[abc][^abc]、\d = [0-9]、\w = [A-Za-z0-9_]、\s 空白。
3.分组 / 捕获
(...) 捕获,(?:...) 不捕获,(?P<name>...) 命名组。
4.非贪婪
在 *, +, ?, {m,n} 后面加 ? 即可。
5.断言(零宽)
(?=...) 正向前瞻,(?!...) 负向前瞻,(?<=...) 正向后瞻,(?<!...) 负向后瞻。
6.修饰符(flag)
re.I 忽略大小写,re.M 多行,re.S 让 . 匹配换行,re.X 写注释。

4、场景示例
取 HTML 属性(之前你问的两个正则)

# 假设 html 是抓取到的网页源码
html = '<img src="a.jpg" data-origin="b.png" alt="pic">'ex1 = re.compile(r'<img src="(.*?)" data-origin="')
ex2 = re.compile(r'" data-origin="(.*?)" alt.*?')src = ex1.search(html).group(1)       # a.jpg
data_origin = ex2.search(html).group(1)  # b.png

更安全写法(防止属性顺序变化):

src        = re.search(r'<img\b[^>]*\bsrc="([^"]*)"', html).group(1)
data_orig  = re.search(r'<img\b[^>]*\bdata-origin="([^"]*)"', html).group(1)

校验手机号

phone_re = re.compile(r'^1[3-9]\d{9}$')
phone_re.fullmatch('13800138000')   # <re.Match object>

解析日志

log = '2025-08-05 12:00:01 ERROR module.py:42 division by zero'
pattern = re.compile(r'(?P<time>\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) 'r'(?P<level>\w+) 'r'(?P<file>\S+):(?P<line>\d+) 'r'(?P<msg>.+)'
)
m = pattern.match(log)
print(m.groupdict())
# {'time': '2025-08-05 12:00:01',
#  'level': 'ERROR',
#  'file': 'module.py',
#  'line': '42',
#  'msg': 'division by zero'}

替换文本中的邮箱为 [EMAIL]

re.sub(r'\b[\w.-]+@[\w.-]+\.\w+\b', '[EMAIL]', 'Contact: foo@bar.com')
# 'Contact: [EMAIL]'

切割不规则空白

re.split(r'\s+', 'a  b\tc\n d')   # ['a', 'b', 'c', 'd']

多行模式提取代码块

code = '''
```python
print('hi')

5、调试技巧

  • re.DEBUG 看编译过程:
    re.compile(r'(a|b)*c', re.DEBUG)

  • 在线可视化:regex101.com(选 Python flavor)

  • 在 Python 中打印 pattern:
    print(pat.pattern) 查看原始表达式。

6. 常见坑提醒

  1. 贪婪 vs 非贪婪:
    .*? 只在需要时才加,否则可能匹配过度或性能差。

  2. 反斜杠地狱:
    在普通字符串里需写 \\d,推荐用原始字符串 r'\d'

  3. 多行字符串用 re.S
    否则 . 匹配不到换行。

  4. 大文本慎用 findall(),用 finditer() 迭代器更省内存。

7. 一句话总结

“先 import re,再 compile,search/match 取 group,findall 得列表,sub 做替换,flag 调行为。”

—— 背住这 30 秒口诀,90 % 的正则问题都能快速拆掉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94469.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud系列—简介

目录 1 单体架构 2 集群与分布式 3 微服务架构 4 Spring Cloud 5 Spring Cloud环境和工程搭建 5.1 服务拆分 5.2 示例 5.2.1 数据库配置 5.2.2 父子项目创建 5.2.3 order_service子项目结构配置 5.2.4 product_service子项目结构配置 5.2.5 服务之间的远程调用 5.…

【普中STM32精灵开发攻略】--第 1 章 如何使用本攻略

学习本开发攻略主要参考的文档有《STM32F1xx 中文参考手册》和《Cortex M3权威指南(中文)》&#xff0c;这两本都是 ST 官方手册&#xff0c;尤其是《STM32F1xx 中文参考手册》&#xff0c;里面包含了 STM32F1 内部所有外设介绍&#xff0c;非常详细。大家在学习 STM32F103的时…

【Docker】RK3576-Debian上使用Docker安装Ubuntu22.04+ROS2

1、简述 RK3576自带Debian12系统,如果要使用ROS2,可以在Debian上直接安装ROS2,缺点是有的ROS包需要源码编译;当然最好是使用Ubuntu系统,可以使用Docker安装,或者构建Ubuntu系统,替换Debian系统。 推荐使用Docker来安装Ubuntu22.04,这里会有个疑问,是否可以直接使用Do…

解决docker load加载tar镜像报json no such file or directory的错误

在使用docker加载离线镜像文件时&#xff0c;出现了json no such file or directory的错误&#xff0c;刚开始以为是压缩包拷贝坏了&#xff0c;重新拷贝了以后还是出现了问题。经过网上查找方案&#xff0c;并且自己实践&#xff0c;采用下面的简单方法就可以搞定。 归结为一句…

《协作画布的深层架构:React与TypeScript构建多人实时绘图应用的核心逻辑》

多人在线协作绘图应用的构建不仅是技术栈的简单组合,更是对实时性、一致性与用户体验的多维挑战。基于React与TypeScript开发这类应用,需要在图形绘制的基础功能之外,解决多用户并发操作的同步难题、状态回溯的逻辑冲突以及大规模协作的性能瓶颈。每一层架构的设计,都需兼顾…

智慧社区(八)——社区人脸识别出入管理系统设计与实现

在社区安全管理日益智能化的背景下&#xff0c;传统的人工登记方式已难以满足高效、精准的管理需求。本文将详细介绍一套基于人脸识别技术的社区出入管理系统&#xff0c;该系统通过整合腾讯云 AI 接口、数据库设计与业务逻辑&#xff0c;实现了居民出入自动识别、记录追踪与访…

嵌入式开发学习———Linux环境下IO进程线程学习(四)

进程相关函数fork创建一个子进程&#xff0c;子进程复制父进程的地址空间。父进程返回子进程PID&#xff0c;子进程返回0。pid_t pid fork(); if (pid 0) { /* 子进程代码 */ } else { /* 父进程代码 */ }getpid获取当前进程的PID。pid_t pid getpid();getppid获取父进程的P…

标记-清除算法中的可达性判定与Chrome DevTools内存分析实践

引言 在现代前端开发中&#xff0c;内存管理是保证应用性能与用户体验的核心技术之一。作为JavaScript运行时的基础机制&#xff0c;标记-清除算法(Mark-and-Sweep) 通过可达性判定决定哪些内存需要回收&#xff0c;而Chrome DevTools提供的Memory工具则为开发者提供了深度的内…

微算法科技(NASDAQ:MLGO)基于量子重加密技术构建区块链数据共享解决方案

随着信息技术的飞速发展&#xff0c;数据已成为数字经济时代的核心生产要素。数据的共享和安全往往是一对难以调和的矛盾。传统的加密方法在面对日益强大的计算能力和复杂的网络攻击时&#xff0c;安全性受到了挑战。微算法科技(NASDAQ&#xff1a;MLGO)通过引入量子重加密技术…

FastAPI快速入门P2:与SpringBoot比较

欢迎来到啾啾的博客&#x1f431;。 记录学习点滴。分享工作思考和实用技巧&#xff0c;偶尔也分享一些杂谈&#x1f4ac;。 有很多很多不足的地方&#xff0c;欢迎评论交流&#xff0c;感谢您的阅读和评论&#x1f604;。 目录引言1 FastAPI事件管理2 类的使用2.1 初始化方法对…

SAP-ABAP: Open SQL集合函数COUNT(统计行数)、SUM(数值求和)、AVG(平均值)、MAX/MIN(极值)深度指南

SAP Open SQL集合函数深度指南 1. 核心价值与特性函数作用关键特性COUNT统计行数用COUNT(*)包含NULL值行&#xff0c;COUNT(字段)排除NULLSUM数值求和自动过滤NULL值&#xff0c;结果类型与源字段相同AVG平均值必须用TYPE f接收&#xff0c;否则四舍五入导致精度丢失MAX/MIN极值…

【docker】UnionFS联合操作系统

Linux 的 Namespace、CGroups 和 UnionFS 三大技术支撑了 Docker 的实现。 一、为什么需要联合文件系统&#xff1f;在传统操作系统中&#xff0c;每个文件系统都是独立的孤岛。但当我们需要&#xff1a;合并多个目录的内容保持基础系统不变的同时进行修改高效共享重复文件内容…

CTF-XXE 漏洞解题思路总结

一、XXE 漏洞简介XXE (XML External Entity) 漏洞允许攻击者通过构造恶意的 XML 输入&#xff0c;强迫服务器的 XML 解析器执行非预期的操作。在 CTF 场景中&#xff0c;最常见的利用方式是让解析器读取服务器上的敏感文件&#xff0c;并将其内容返回给攻击者。二、核心攻击载荷…

GitLab:一站式 DevOps 平台的全方位解析

GitLab&#xff1a;一站式 DevOps 平台的全方位解析 在当今数字化时代&#xff0c;软件研发的效率与质量直接决定企业的市场竞争力。GitLab 作为全球领先的 DevOps 平台&#xff0c;凭借 “从构思到部署” 的全流程管理能力&#xff0c;已成为无数企业加速软件交付的核心工具。…

Flink富函数:一种更灵活、可扩展的方式来定义数据流的处理逻辑

本文重点 Flink中的富函数类是一组用于处理数据流的函数接口和实现类。富函数类提供了一种更灵活和可扩展的方式来定义数据流的处理逻辑。 富函数类 富函数类是DataStream API提供的一个函数类的接口,所有的Flink函数类都有其Rich版本。富函数类一般是以抽象类的形式出现的。…

【STM32】HAL库中的实现(四):RTC (实时时钟)

&#x1f552;HAL库中的实现&#xff1a;RTC&#xff08;Real-Time Clock&#xff09;实时时钟RTC 是 STM32 的低功耗实时时钟模块&#xff0c;常用于&#xff1a; 实时时间维护&#xff08;年月日时分秒&#xff09;定时唤醒日志时间戳闹钟功能RTC&#xff08;实时时钟&#x…

Pauli 矩阵指数函数展开为显式矩阵 e^A -> B

要展开表达式 为普通矩阵&#xff0c;其中 是 Pauli 矩阵&#xff0c; 是单位向量&#xff0c; 是实数。以下是详细推导步骤&#xff1a;1. Pauli 矩阵的性质Pauli 矩阵定义为&#xff1a;它们满足以下关系&#xff1a;​其中 是 Kronecker delta&#xff0c;​ 是 Levi-…

【Algorithm | 0x03 搜索与图论】DFS

DFS基础知识典型例题例1&#xff1a;n皇后问题例2&#xff1a;拍照例3&#xff1a;理发基础知识 核心原理&#xff1a;一条路走到黑 示意图&#xff1a;其含义表示&#xff0c;在这个图中顶层是第0层&#xff0c;也就是后面dfs的入口&#xff0c;一般从dfs(0)开始操作。 模版&a…

Redis的数据过期策略有哪些?

Redis内部通过两种主要策略来处理过期的Key&#xff1a; 惰性删除 惰性删除&#xff1a;顾明思议并不是在TTL到期后就立刻删除&#xff0c;而是在访问一个key的时候&#xff0c;Redis会先检查这个键是否过期。如果过期&#xff0c;就删除它&#xff0c;然后返回nil。 这种方式非…

水库雨水情测报和大坝安全监测系统解决方案

一、方案背景 在全球气候变化和极端天气频发的背景下&#xff0c;水库作为重要的水利设施&#xff0c;承担着防洪、供水、灌溉、发电等多重功能。然而&#xff0c;由于水库蓄水量巨大&#xff0c;一旦发生溃坝或运行异常&#xff0c;将对下游地区造成不可估量的生命财产损失。因…