爬取m3u8视频完整教程

爬取步骤:

1.先找到网页源代码

2.从网页源代码中拿到m3u8

3.下载m3u8

4.读取m3u8文件,下载视频

5.合并视频

首先我们来爬取一个星辰影院的电影:

下面我以这个为例:

我们需要在源代码中找到m3u8这个url:

紧接着我们利用下面的方法来进行视频的爬取:

输入网站的url:

url="https://www.xcyy44.com/play/16166_1.html"

打印一下看一下是否有我们要的数据:

resp=requests.get(url)
print(resp.text)

在搜索框中搜索一下发现正是我们要的url:

再利用正则表达式提取一下m3u8的地址:

obj=re.compile(r"url: '(?P<url>.*?)',",re.S) 

得到m3u8的地址并打印:

m3u8_url=obj.search(resp.text).group("url")
print(m3u8_url) 

接下来把m3u8文件下载下来:

用resp2来接受一下m3u8的地址,并把resp2写入到test文件中:

resp2=requests.get(m3u8_url)with open("test.m3u8","wb") as f:f.write(resp2.content)resp2.close()
print('下载完毕')

然后将得到的这些m3u8进行解析:

先将test文件打开读取里面的内容,在利用循环便利一下里面的内容,在利用strip()去除空白,判断是否有#,如果有就继续遍历,找到没有的写入到video中完成一个打印一个:

n=1
with open('test.m3u8','r',encoding='utf-8') as f:for line in f:line = line.strip()   if line.startswith('#'):   continueresp3=requests.get(line)f=open(f'video/{n}.ts','wb')f.write(resp3.content)f.close()resp3.close()n+=1print('完成一个')

最后在把视频片段合并在一起就ok了

完整代码:

import requests
import reobj=re.compile(r"url: '(?P<url>.*?)',",re.S)  #用来提取m3u8的地址url="https://www.xcyy44.com/play/16166_1.html"resp=requests.get(url)
m3u8_url=obj.search(resp.text).group("url")  #拿到m3u8的地址
# print(resp.text)
# print(m3u8_url)
resp.close()#下载m3u8文件
resp2=requests.get(m3u8_url)with open("test.m3u8","wb") as f:f.write(resp2.content)resp2.close()
print('下载完毕')
#
# #解析m3u8文件
n=1
with open('test.m3u8','r',encoding='utf-8') as f:for line in f:line = line.strip()   #去掉空白if line.startswith('#'):   #如果以#开头则会继续循环continue#下载视频片段resp3=requests.get(line)f=open(f'video/{n}.ts','wb')f.write(resp3.content)f.close()resp3.close()n+=1print('完成一个')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97849.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97849.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫实战: 基于Scrapy的Amazon跨境电商选品数据爬虫方案

概述与设计思路 利用Python的Scrapy框架进行大规模页面抓取和结构化数据提取,配合aiohttp实现高并发请求,从而高效获取Amazon平台上的商品列表、详情、评论等公开信息。通过对这些数据进行清洗与分析,可以识别出有潜力的商品,评估市场竞争程度,并跟踪竞争对手的动态,为跨…

稳定版IM即时通讯 仿默往APP即时通讯im源码聊天社交源码支持二开原生开发独立部署 含搭建教程

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 技术开发语言&#xff1a; 后台管理端&#xff1a;Java GO Mysql数据库 安卓端&#xff1a;Java iOS端&#xff1a;ob PC端&#xff1a;c 功能简单介绍&#xff1a; 单聊&#xff…

封装一个redis获取并解析数据的工具类

redis获取并解析数据工具类实现代码使用示例实现代码 import cn.hutool.core.collection.CollUtil; import cn.hutool.core.util.ObjectUtil; import cn.hutool.core.util.StrUtil; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.TypeReference; import lom…

23种设计模式——策略模式 (Strategy Pattern)​详解

✅作者简介&#xff1a;大家好&#xff0c;我是 Meteors., 向往着更加简洁高效的代码写法与编程方式&#xff0c;持续分享Java技术内容。 &#x1f34e;个人主页&#xff1a;Meteors.的博客 &#x1f49e;当前专栏&#xff1a;设计模式 ✨特色专栏&#xff1a;知识分享 &#x…

CI(持续集成)、CD(持续交付/部署)、CT(持续测试)、CICD、CICT

目录 **CI、CD、CT 详解与关系** **1. CI(Continuous Integration,持续集成)** **2. CD(Continuous Delivery/Deployment,持续交付/部署)** **持续交付(Continuous Delivery)** **持续部署(Continuous Deployment)** **3. CT(Continuous Testing,持续测试)** **4.…

【音视频】WebRTC ICE 模块深度剖析

原文链接&#xff1a; https://mp.weixin.qq.com/s?__bizMzIzMjY3MjYyOA&mid2247498075&idx2&sn6021a2f60b1e7c71ce4d7af6df0b9b89&chksme893e540dfe46c56323322e780d41aec1f851925cfce8b76b3f4d5cfddaa9c7cbb03a7ae4c25&scene178&cur_album_id314699…

linux0.12 head.s代码解析

重新设置IDT和GDT&#xff0c;为256个中断门设置默认的中断处理函数检查A20地址线是否启用设置数学协处理器将main函数相关的参数压栈设置分页机制&#xff0c;将页表映射到0~16MB的物理内存上返回main函数执行 源码详细注释如下: /** linux/boot/head.s** (C) 1991 Linus T…

Maven动态控制版本号秘籍:高效发包部署,版本管理不再头疼!

作者&#xff1a;唐叔在学习 专栏&#xff1a;唐叔的Java实践 关键词&#xff1a;Maven版本控制、versions插件、动态版本号、持续集成、自动化部署、Java项目管理 摘要&#xff1a;本文介绍如何使用Maven Versions插件动态控制项目版本号和依赖组件版本号&#xff0c;实现无需…

简述:普瑞时空数据建库软件(国土变更建库)之一(变更预检查部分规则)

简述&#xff1a;普瑞时空数据建库软件&#xff08;国土变更建库&#xff09;之一(变更预检查部分规则) 主要包括三种类型&#xff1a;常规检查、行政区范围检查、20X异常灭失检查 本blog地址&#xff1a;https://blog.csdn.net/hsg77

shell中命令小工具:cut、sort、uniq,tr的使用方式

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录前言一、cut —— 按列或字符截取1. 常用选项2. 示例二、sort —— 排序&#xff08;默认按行首字符升序&#xff09;1. 常用选项常用 sort 命令选项三、uniq —— 去…

【Linux】Linux开发必备:Git版本控制与GDB调试全指南

前言&#xff1a;在Linux开发流程中&#xff0c;版本控制与程序调试是保障项目稳定性和开发效率的两大核心环节。Git作为当前最主流的分布式版本控制系统&#xff0c;能高效管理代码迭代、追踪修改记录并支持多人协同开发&#xff1b;GDB&#xff08;GNU调试器&#xff09;是Li…

实现 TypeScript 内置工具类型(源码解析与实现)

目标读者&#xff1a;已经熟悉 TypeScript 基础语法、泛型、条件类型的同学。本文按常见工具类型的分类与顺序实现并解释 Partial、Required、Readonly、Pick、Omit、Record、Exclude、Extract、NonNullable、ReturnType、Parameters、ConstructorParameters、InstanceType、Th…

Spring Boot + Nacos 配置中心示例工程

1️⃣ 工程结构 nacos-demo├── pom.xml└── src├── main│ ├── java│ │ └── com.example.nacosdemo│ │ ├── NacosDemoApplication.java│ │ ├── config│ │ │ └── AppProperties.java│ │ └── cont…

(二)文件管理-基础命令-pwd命令的使用

文章目录1. 命令格式2. 基本用法3. 高级用法4. 注意事项1. 命令格式 pwd [OPTION]...[OPTION]: 可选选项&#xff0c;用于改变命令的默认行为。最主要的两个选项是 -L 和 -P。它不需要任何参数&#xff08;如文件名或目录名&#xff09; 2. 基本用法 用法&#xff1a;pwd 是…

Leetcode_202.快乐数_三种方法解决(普通方法解决,哈希表解决,循环链表的性质解决_快慢指针)

目录第一种方法&#xff1a;暴力解法暴力ac代码&#xff1a;第二种方法&#xff1a;哈希表哈希表ac代码:第三种方法&#xff1a;根据循环链表的性质(快慢指针)第一种方法&#xff1a;暴力解法 最暴力的思路就是直接使用循环往下一直计算&#xff0c;这样特别浪费时间&#xff…

代码随想录刷题Day48

这次博客主要是对做过的关于二叉树系列的题目进行整理和分类。二叉树&#xff0c;要处理整个树&#xff0c;一般少不了遍历。遍历主要可以分为&#xff1a;递归系列、层序遍历。如果不遍历的话&#xff0c;那就是处理特殊的树了&#xff0c;比如完全二叉树。递归系列基本的递归…

汽车工装结构件3D扫描尺寸测量公差比对-中科米堆CASAIM

汽车制造过程中&#xff0c;工装结构件的尺寸精度对整车装配质量和生产进度有重要影响。传统测量工具如卡尺和三坐标测量机采用接触式工作方式&#xff0c;检测过程耗时较长&#xff0c;对于具有复杂曲面特征的工件&#xff0c;难以全面获取尺寸数据。激光三维扫描技术改变了传…

Docker Pull 代理配置方法

本文介绍通过网络代理加速Docker镜像拉取的方法。 配置方法 当执行docker pull从Docker Hub 拉取镜像时&#xff0c;其网络连接由守护进程docker daemon进行维护。 要修改其代理设置&#xff0c;可配置其systemd服务&#xff0c;步骤如下&#xff1a; &#xff08;1&#xf…

机电装置:从基础原理到前沿应用的全方位解析

本文由「大千AI助手」原创发布&#xff0c;专注用真话讲AI&#xff0c;回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我&#xff0c;一起撕掉过度包装&#xff0c;学习真实的AI技术&#xff01; 1 机电装置的基本概念与发展历程 机电装置&#xff08;Mechatronic D…

《SVA断言系统学习之路》【03】关于布尔表达式

序列中使用的表达式基于其所含变量的采样值进行评估。表达式评估的结果为布尔值&#xff0c;其解释方式与过程性if语句条件中的表达式完全相同&#xff1a;若表达式计算结果为X、Z 或 0&#xff0c;则被解释为假&#xff1b;否则即为真。但是&#xff0c;对可出现在并发断言中的…