「爬取豆瓣Top250电影的中文名称」数据采集、网络爬虫

- 第 108 篇 -
Date: 2025 - 06 - 16
Author: 郑龙浩(仟墨)

文章目录

    • **任务:爬取豆瓣Tap250电影的中文名称**
      • **代码**
      • **实现效果**

任务:爬取豆瓣Tap250电影的中文名称

代码

# 豆瓣前Tap 250
import requests
from bs4 import BeautifulSoup
# 检查获取是否成功
def check(response):if not response.ok:print(f'请求失败,服务器错误\n状态码: {response.status_code}')exit()  # 退出程序# 浏览器标识
head = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}# 存储中文电影名
tap250_movie_title = []
# 获取每一页中的电影名(从0到225,star以25为一个步长去增加)
for start in range(0, 226, 25):# 目标网址url = f"https://movie.douban.com/top250?start={start}&filter="# 获取网页信息response = requests.get(url, headers=head)# 检查是否成功获取check(response)# 存储HTML源码html = response.text# 解析HTML,并将返回的对象存至soupsoup = BeautifulSoup(html, "html.parser")# 提取出所有包含着“电影名称”的元素(标签),包含中文名字和原本语言名字(每个名字前都有'/')# 解释:返回的是可迭代对象(列表):找到所有class值为title的<span>元素 (参数1为要查找的标签;参数2为标签中的属性,"class" : "title"为一个键值对)all_titles = soup.find_all("span", attrs={"class": "title"})# print(all_titles) # 如果此时将 all_titles 打印出来,打印的是一个列表for title in all_titles:title_string = title.string  # title.string 不要标签,只要标签中的文本内容# 只打印中文电影名:只有不含 '/' 的电影名,才不是原版语言电影名,即中文电影名,那就打印if '/' not in title_string:tap250_movie_title.append(title_string)   # 电影名存储到列表中print('Tap电影如下:')
num = 0
for title in tap250_movie_title:if num % 25 == 0: # 如果一行25个了,则就换行(包括第一行)print()print(f'{num+1} ~ {num + 25}: ', end='\t') # 打印下一行的开头(表示第多少个电影)num += 1 # 累加以打印电影的个数print(f'{title}', end = '  ')

实现效果

1 ~ 25: 	肖申克的救赎  霸王别姬  泰坦尼克号  阿甘正传  千与千寻  美丽人生  这个杀手不太冷  星际穿越  盗梦空间  楚门的世界  辛德勒的名单  忠犬八公的故事  海上钢琴师  三傻大闹宝莱坞  疯狂动物城  放牛班的春天  机器人总动员  无间道  控方证人  大话西游之大圣娶亲  熔炉  触不可及  教父  寻梦环游记  当幸福来敲门  
26 ~ 50: 	末代皇帝  哈利·波特与魔法石  龙猫  怦然心动  活着  蝙蝠侠:黑暗骑士  指环王3:王者无敌  我不是药神  乱世佳人  飞屋环游记  让子弹飞  哈尔的移动城堡  素媛  十二怒汉  海蒂和爷爷  猫鼠游戏  天空之城  摔跤吧!爸爸  鬼子来了  少年派的奇幻漂流  钢琴家  指环王2:双塔奇兵  死亡诗社  大话西游之月光宝盒  何以为家  
51 ~ 75: 	闻香识女人  绿皮书  大闹天宫  黑客帝国  指环王1:护戒使者  罗马假日  教父2  狮子王  天堂电影院  饮食男女  辩护人  搏击俱乐部  本杰明·巴顿奇事  美丽心灵  穿条纹睡衣的男孩  情书  窃听风暴  两杆大烟枪  哈利·波特与死亡圣器(下)  音乐之声  西西里的美丽传说  功夫  阿凡达  哈利·波特与阿兹卡班的囚徒  看不见的客人  
76 ~ 100: 	拯救大兵瑞恩  沉默的羔羊  小鞋子  飞越疯人院  布达佩斯大饭店  蝴蝶效应  禁闭岛  致命魔术  心灵捕手  低俗小说  超脱  哈利·波特与密室  摩登时代  喜剧之王  杀人回忆  致命ID  春光乍泄  一一  海豚湾  美国往事  加勒比海盗  红辣椒  七宗罪  唐伯虎点秋香  还有明天  
101 ~ 125: 	狩猎  幽灵公主  甜蜜蜜  蝙蝠侠:黑暗骑士崛起  7号房的礼物  寄生虫  天书奇谭  超能陆战队  爱在黎明破晓前  被嫌弃的松子的一生  第六感  爱在日落黄昏时  重庆森林  入殓师  剪刀手爱德华  未麻的部屋  断背山  菊次郎的夏天  哈利·波特与火焰杯  借东西的小人阿莉埃蒂  勇敢的心  茶馆  头脑特工队  时空恋旅人  无人知晓  
126 ~ 150: 	消失的爱人  倩女幽魂  完美的世界  阳光灿烂的日子  驯龙高手  花样年华  小森林 夏秋篇  天使爱美丽  新世界  傲慢与偏见  一个叫欧维的男人决定去死  侧耳倾听  怪兽电力公司  玩具总动员3  请以你的名字呼唤我  教父3  色,戒  幸福终点站  哪吒闹海  被解救的姜戈  小森林 冬春篇  九品芝麻官  釜山行  神偷奶爸  萤火之森  
151 ~ 175: 	喜宴  告白  玛丽和马克思  头号玩家  模仿游戏  七武士  大鱼  惊魂记  射雕英雄传之东成西就  血战钢锯岭  我是山姆  你的名字。  阳光姐妹淘  恐怖直播  黑客帝国3:矩阵革命  背靠背,脸对脸  心灵奇旅  电锯惊魂  三块广告牌  小丑  谍影重重3  达拉斯买家俱乐部  疯狂原始人  无间道2  绿里奇迹  
176 ~ 200: 	爱在午夜降临前  海街日记  风之谷  上帝之城  英雄本色  疯狂的石头  雨中曲  心迷宫  2001太空漫游  末路狂花  纵横四海  记忆碎片  卢旺达饭店  高山下的花环  无敌破坏王  小偷家族  冰川时代  恐怖游轮  东京教父  牯岭街少年杀人事件  魔女宅急便  岁月神偷  忠犬八公物语  荒蛮故事  遗愿清单  
201 ~ 225: 	大佛普拉斯  贫民窟的百万富翁  芙蓉镇  源代码  疯狂的麦克斯4:狂暴之路  你看起来好像很好吃  东邪西毒  可可西里  爆裂鼓手  城市之光  波西米亚狂想曲  花束般的恋爱  爱乐之城  黑天鹅  机器人之梦  白日梦想家  青蛇  哈利·波特与死亡圣器(上)  终结者2:审判日  初恋这件小事  无耻混蛋  新龙门客栈  雨人  人工智能  虎口脱险  
226 ~ 250: 	崖上的波妞  大红灯笼高高挂  真爱至上  千钧一发  罗生门  恋恋笔记本  彗星来的那一夜  哈利·波特与凤凰社  海边的曼彻斯特  火星救援  黑客帝国2:重装上阵  奇迹男孩  萤火虫之墓  战争之王  千年女优  步履不停  谍影重重2  血钻  蜘蛛侠:平行宇宙  攻壳机动队  魂断蓝桥  冰雪奇缘  房间  隐藏人物  谍影重重  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87401.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87401.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 多表查询、事务

1.多表查询的分类 1.1 内连接 在 MySQL 中&#xff0c;内连接&#xff08;INNER JOIN&#xff09;返回的是两个表中满足连接条件的记录的交集。这个“交集”不是指整个表&#xff0c;而是指符合连接条件的行组合&#xff0c;也就是A表和B表中满足我们使用on指定条件的记录。图…

CSP-J 2020 入门级 第一轮(初赛) 答案及解析

CSP-J 2020 入门级 第一轮&#xff08;初赛&#xff09; 答案及解析 在内存储器中每个存储单元都被赋予一个唯一的序号&#xff0c;称为&#xff08;&#xff09;。 A. 地址 B. 序号 C. 下标 D. 编号 答: A 计算机中每个存储单元都是1字节&#xff0c;都有唯一的地址。 编译器…

Flutter包管理与插件开发完全指南

Flutter作为Google推出的跨平台移动应用开发框架&#xff0c;其强大的生态系统离不开完善的包管理机制和丰富的插件支持。本文将全面介绍Flutter中的包管理体系和插件开发实践&#xff0c;帮助开发者高效管理项目依赖并扩展应用功能。 一、Flutter包管理基础 1.1 包管理概述 …

【视频直播出海】阿里云ApsaraVideo Live:从零搭建全球直播平台的“星际航行”指南!

【视频直播出海】阿里云ApsaraVideo Live&#xff1a;从零搭建全球直播平台的“星际航行”指南&#xff01; 在全球化浪潮的推动下&#xff0c;视频直播行业正以前所未有的速度跨越国界&#xff0c;成为连接世界的“数字新桥梁”。对于渴望拓展海外市场的企业而言&#xff0c;…

OAuth2中的Token

两个不同的Token OAuth2 中主要有两个不同的Token, 其中的区别为是否与用户相关联, 即与用户相关的用户Token, 和与客户端相关的客户端Token, 可以通过用户Token, 查询到用户的相关信息, 客户端Token与用户无关, 一般只用于客户端认证 用户Token 获取用户Token一般有两个方式…

使用 FastMCP 实现 Word 文档与 JSON 数据互转的 Python 服务

一、项目背景 本文分享一个基于 FastMCP 框架实现的文档处理服务&#xff0c;可实现 Word 文档&#xff08;.docx&#xff09;与 JSON 数据格式的双向转换。通过此服务&#xff0c;开发者可以轻松实现文档内容提取、结构化数据填充、样式模板复用等功能&#xff0c;适用于自动…

Vue3轮播图组件,当前轮播区域有当前图和左右两边图,两边图各显示一半,支持点击跳转和手动滑动切换

功能&#xff1a; 自动循环播放&#xff08;到达末尾后回到第一张&#xff09;、可设置切换间隔时间&#xff08;interval属性&#xff09; 左右导航按钮&#xff08;可自定义显示/隐藏&#xff09; 点击底部指示器跳转到指定幻灯片、且位置可调&#xff08;轮播图内部/外部&…

350+交付案例,高质量低成本构建智慧园区数字孪生交付新范式

在智慧园区建设领域&#xff0c;数字孪生技术正成为推动园区智能化转型的核心引擎。山东融谷信息凭借其全要素、全周期、全方位的数字孪生交付能力&#xff0c;已成功交付350余个项目&#xff0c;覆盖产业园区、智慧楼宇、智慧社区等多元场景&#xff0c;低成本高质量交付&…

OpenCV 图像像素类型转换与归一化

一、知识点 1、OpenCV支持多种数据类型&#xff0c;每种类型都对应着不同的取值范围。 (1)、CV_8U取值范围[0, 255]。 (2)、CV_16U取值范围[0, 65535]。 (3)、CV_32F取值范围[0, 1]。 2、OpenCV提供convertTo()函数来转换数据类型&#xff0c;提供normalize()函数来改…

机器学习算法_支持向量机

一、支持向量机 支持向量机只能做二分类任务 SVM全称支持向量机&#xff0c;即寻找到一个超平面使样本分成两类&#xff0c;且间隔最大 硬间隔&#xff1a;如果样本线性可分&#xff0c;在所有样本分类都正确的情况下&#xff0c;寻找最大间隔&#xff1b;如果出现异常值或样…

Linux : echo ~ tail 重定向符

&#x1f680; Linux 常用命令详解&#xff1a;echo、tail 与重定向符号全解析&#xff08;含通俗案例&#xff09; &#x1f4c5; 更新时间&#xff1a;2025年6月17日 &#x1f3f7;️ 标签&#xff1a;Linux基础 | Shell命令 | echo | tail | 输出重定向 | Linux入门 文章目录…

uniapp的更新流程【安卓、IOS、热更新】

UniApp应用更新方案 两种更新方式 APP全量升级&#xff1a;需要重新下载安装包热更新&#xff1a;通过下载wgt资源包实现&#xff0c;用户只需重启应用 Android更新实现 用户需要授权安装权限&#xff0c;流程为下载APK后自动弹出安装界面 var dtask plus.downloader.cre…

火山引擎解码生态型增长铁律

“技术流量与力量的崛起&#xff0c;本质上是一场生态规模的竞赛。每次浪潮的排头兵&#xff0c;都是指尖沾着代码的开发者——互联网时代的Linux社区让开源席卷全球&#xff0c;移动互联网的App Store催生百万开发者&#xff0c;而今天&#xff0c;大模型正在用API重构产业。”…

警惕GO的重复初始化

go的初始化方式有很多种&#xff0c;在某些情况下容易引起重复初始化导致错误。 事例如下&#xff1a; 当使用gorm连接数据库时定义了全局DB var DB *gorm.DB 但是在后面某个函数内部初始化时导致DB重新初始化变成了局部变量&#xff0c;导致原来的全局变量DB还是nil func I…

python校园服务交流系统

目录 技术栈介绍具体实现截图系统设计研究方法&#xff1a;设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示 技术栈介绍 Django-SpringBoot-php-Node.js-flask 本课题的研究方法和研究步骤基本合理&#xff0c;难度适中&#xf…

AlexNet:图像分类领域的里程碑网络及其创新剖析

文章目录 前言AlexNet一、网络的背景二、网络结构三、网络的创新3.1 首次使用GPU训练网络3.2 使用Relu激活函数3.2.1 sigmoid激活函数和tanh激活函数3.2.1.1 sigmoid激活函数3.2.1.2 tanh激活函数 3.3 Relu激活函数3.4 使用LRN局部响应归一化(已弃用)3.4.1 LRN的定义与起源3.4.…

iOS性能调优实践:结合KeyMob等多个工具提升应用稳定性与流畅度

在iOS应用开发中&#xff0c;性能问题往往难以通过单一工具轻松解决。尤其是当App面临用户反馈的流畅度差、卡顿严重、内存泄漏等问题时&#xff0c;开发者需要依靠多种工具的组合&#xff0c;才能有效地排查和优化性能瓶颈。 在我们最近的一个项目中&#xff0c;开发团队在处…

球形波方程的推导与解法

题目 问题 6. 一个球形波是三维波动方程的解,形式为 u ( r , t ) u(r,t) u(r,t),其中 r r r 是到原点的距离(球坐标)。波动方程的形式为: u t t = c 2 ( u r r + 2 r u r ) (球形波方程) . u_{tt} = c^{2} \left( u_{rr} + \frac{2}{r} u_{r} \right) \quad \text{(球形…

自动打电话软件设计与实现

文章目录 方案概述实现代码1. 安装必要的库2. 主程序代码3. HTML模板 (templates/index.html) 功能说明部署说明扩展功能建议注意事项 方案概述 使用Twilio的API进行电话呼叫实现基本的呼叫逻辑添加简单的用户界面 实现代码 1. 安装必要的库 pip install twilio flask2. 主…

RedissonLock源代码分析与锁应用

文章目录 前言一、RedissonLock源代码分析1.1 尝试加锁2.2 解锁 二、锁业务应用1.服务层方法注解方式 注入锁1.1 定义DistributedLock 注解类1.2 定义DistributedLockAspect 切片类1.3 尝试获取锁代码片断1.4 释放锁代码片断1.5 服务层注入锁注解 2.代码行加锁2.1 pom.xml文件引…