Python实例题:Web 爬虫与数据可视化

目录

Python实例题

题目

要求:

解题思路:

代码实现:

Python实例题

题目

Web 爬虫与数据可视化

要求

  • 编写一个爬虫,从豆瓣电影 Top250 页面(豆瓣电影 Top 250)抓取电影名称、评分、导演、主演和上映年份。
  • 将数据存储到 SQLite 数据库中。
  • 基于数据库数据,使用 Matplotlib 生成柱状图,展示评分最高的 10 部电影。
  • 添加异常处理(如网络请求失败、解析错误、数据库操作失败等)。

解题思路

  • 使用 requests 和 BeautifulSoup 实现网页爬取与解析。
  • 使用 sqlite3 建立数据库并存储数据。
  • 使用 matplotlib 绘制柱状图。
  • 添加重试机制和异常捕获。

代码实现

import requests
from bs4 import BeautifulSoup
import sqlite3
import matplotlib.pyplot as plt
from requests.exceptions import RequestException
import timedef fetch_movie_data(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}max_retries = 3for attempt in range(max_retries):try:response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()return response.textexcept RequestException as e:print(f"请求失败 ({attempt+1}/{max_retries}): {e}")if attempt < max_retries - 1:time.sleep(2)  # 等待2秒后重试return Nonedef parse_movie_data(html_content):if not html_content:return []soup = BeautifulSoup(html_content, 'html.parser')movies = []for item in soup.select('div.item'):try:title = item.select_one('span.title').text.strip()rating = float(item.select_one('span.rating_num').text)info = item.select_one('div.bd p').text.strip()# 解析导演、主演和年份director, *actors = info.split('\xa0\xa0\xa0')[0].replace('导演: ', '').split('主演: ')year = info.split('\n')[-1].strip().split('/')[0]movies.append({'title': title,'rating': rating,'director': director.strip(),'actors': actors[0].strip() if actors else '','year': year})except (AttributeError, ValueError, IndexError) as e:print(f"解析错误: {e}")return moviesdef save_to_database(movies):conn = sqlite3.connect('douban_movies.db')c = conn.cursor()try:c.execute('''CREATE TABLE IF NOT EXISTS movies(id INTEGER PRIMARY KEY AUTOINCREMENT,title TEXT NOT NULL,rating REAL NOT NULL,director TEXT,actors TEXT,year TEXT)''')for movie in movies:c.execute('''INSERT INTO movies (title, rating, director, actors, year)VALUES (?, ?, ?, ?, ?)''',(movie['title'], movie['rating'], movie['director'], movie['actors'], movie['year']))conn.commit()except sqlite3.Error as e:print(f"数据库错误: {e}")conn.rollback()finally:conn.close()def plot_top_movies():conn = sqlite3.connect('douban_movies.db')c = conn.cursor()try:c.execute('SELECT title, rating FROM movies ORDER BY rating DESC LIMIT 10')top_movies = c.fetchall()if not top_movies:print("数据库中没有电影数据")returntitles, ratings = zip(*top_movies)plt.figure(figsize=(10, 6))plt.barh(titles, ratings, color='skyblue')plt.xlabel('评分')plt.ylabel('电影名称')plt.title('豆瓣电影评分Top10')plt.tight_layout()plt.savefig('top_movies.png')plt.show()except sqlite3.Error as e:print(f"数据库错误: {e}")finally:conn.close()if __name__ == "__main__":all_movies = []for start in range(0, 250, 25):url = f"https://movie.douban.com/top250?start={start}"html = fetch_movie_data(url)movies = parse_movie_data(html)all_movies.extend(movies)print(f"已抓取 {start+25}/250 部电影")time.sleep(1)  # 避免请求过快if all_movies:save_to_database(all_movies)plot_top_movies()else:print("未抓取到任何电影数据")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86550.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于ubuntu 20.04系统安装分区和重复登录无法加载桌面的问题解决

1. 想要安装Ubuntu 20.04版本&#xff0c;有两块硬盘&#xff0c;所以在分区列表设置的格式为如下&#xff1a; 其中各个/boot 、/home的格式为如下&#xff08;Ubuntu20.04分区方案_ubuntu20.04手动分区-CSDN博客&#xff09; 2.安装完死活输完密码进不去主界面 必须禁用Nou…

26考研|数学分析:隐函数定理及其应用

前言 本章主要围绕隐函数、隐含数组的计算展开&#xff0c;本章的核心还是在于计算的运用&#xff0c;在理论层面要掌握隐函数&#xff08;隐函数组&#xff09;存在性定理&#xff0c;在计算方面&#xff0c;要掌握隐函数、隐函数组的计算方法&#xff0c;此外&#xff0c;本…

PyQtNode Editor 第三篇创建节点(节点的定义)

在 PyQtNode Editor 的开发之旅中,经过前两篇博客对基础环境搭建和核心类结构的探索,我们已经迈出了坚实的步伐。今天,我们将聚焦于node_scene文件,深入解析其中的代码逻辑。这段代码构建了Scene类,它如同整个节点编辑器的 “管理中枢”,承担着组织和协调节点、边等关键元…

通过docker安装nginx服务

nginx配置文件 https://gitee.com/Cairo-SR8/nginx-configuration.git一、安装nginx 1.1 拉去ARM镜像 docker pull registry.cn-hangzhou.aliyuncs.com/qiluo-images/linux_arm64_nginx:latest1.2 拉去x86镜像 docker pull registry.cn-hangzhou.aliyuncs.com/qiluo-images/…

盲法在临床试验中的应用与挑战

一、盲法分级与科学价值 1.1 开放标签 1.1.1 受盲对象 无隐藏。 1.1.2 适用场景 外科手术、器械试验等无法伪装的操作。 1.1.3 偏倚控制目标 仅客观终点(生存率、实验室指标)。 1.2 单盲 1.2.1 受盲对象 患者。 1.2.2 适用场景 患者报告结局(PRO)为主的试验(如…

VNware启动虚拟机报错:虚拟化性能计数器需要版本为 3 或以上的架构性能监控。

Vmware版本&#xff1a;17.5 结论&#xff1a; 【编辑虚拟机设置-硬件-处理器-虚化计数器】没勾就勾上&#xff0c;勾了就不勾保存&#xff0c;然后重新打勾 备注&#xff1a;不知道是不是显示问题&#xff0c;之前勾着的时候报错。取消报错&#xff0c;再勾上报错能正常启动虚…

微机系统 - 第7章 -可编程接口芯片

可编程并行输入/输出接口芯片 8255A -1:结构 8255A为40引脚、双列直插封装。 内部结构由数据端口、组控制电路、数据总线缓冲器、读/写控制逻辑四部分组成。 数据总线缓冲器&#xff1a;三态8位双向缓冲器&#xff0c;D7-D0同系统数据总线相连。CPU通过执行输入/输出指令来实…

解析云计算虚拟化基石:KVM、QEMU与Libvirt的协同

在云计算和容器化大行其道的今天&#xff0c;传统虚拟化技术仍是企业IT架构的核心支柱。理解KVM、QEMU和Libvirt的关系&#xff0c;是掌握现代虚拟化技术的关键一步。 一、虚拟化技术演进&#xff1a;从软件模拟到硬件加速的进化之路 虚拟化技术通过在单台物理服务器上创建多个…

Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告

测试对象&#xff1a;2025 款 Mac mini&#xff08;M4 / M4 Pro 芯片&#xff09; 测试模型&#xff1a;DeepSeek-R1&#xff08;14B/32B&#xff09;、QwQ-32B&#xff08;原版/量化版&#xff09; 测试目标&#xff1a;硬件性能适配性、推理速度、内存占用及优化方案 一、Mac…

github常用插件

一&#xff0c;文档辅助阅读系列&#xff1a;自动化wiki处理 1&#xff0c;deepwiki https://deepwiki.com/ 将我们看不懂的官方code文档转换为wiki&#xff0c;更加便于理解。 其实能够翻阅的仓库很有限&#xff0c;比如说&#xff1a; 但是有很多仓库并没有index&#xff…

洛谷P11963 [GESP202503 六级] 环线-普及/提高-

题目描述 小 A 喜欢坐地铁。地铁环线有 n n n 个车站&#xff0c;依次以 1 , 2 , ⋯ , n 1,2,\cdots,n 1,2,⋯,n 标号。车站 i ( 1 ≤ i < n ) i\ (1\leq i<n) i (1≤i<n) 的下一个车站是车站 i 1 i1 i1。特殊地&#xff0c;车站 n n n 的下一个车站是车站 1 …

大网络办公区的二层生成树优化问题

办公区有华为和思科交换机&#xff0c;此次改造&#xff0c;在办公火墙上、下联&#xff0c;做3层IP地址互联&#xff0c;可以让大核心不参与办公区的STP网络收敛&#xff0c;就不会因为下面办公区的交换机stp收敛问题导致&#xff0c;核心连接的其他区域网络出现动荡&#xff…

重点解析(软件工程)

一. 概述 什么是软件、软件危机、软件工程 软件是可执行的指令&#xff08;程序&#xff09;、操作信息的数据以及描述程序操作和使用的文档的集合。 软件危机指软件开发速度跟不上需求增长&#xff0c;导致设计拙劣、维护困难&#xff0c;可能造成经济损失或灾难。 软件工程是…

Jina-Embeddings-V4:多模态向量模型的革命性突破与实战指南

当Jina-Embeddings-V4带着38亿参数和多模态能力登场时&#xff0c;它就像向量模型界的"变形金刚"——不仅能处理30语言的文本&#xff0c;还能把图像、表格甚至混合排版文档统统"吞"进同一个语义空间。传统方案如CLIP需要分别处理图像和文本再强行对齐&…

数据结构进阶 - 第四,五章 串、数组和广义表

数据结构进阶 - 串、数组和广义表 第四章 串&#xff08;String&#xff09; 4.1 串的基本概念 4.1.1 串的定义 串是受限的线性表&#xff1a;组成串的元素只能为字符串的特点&#xff1a; 操作位置受限元素类型受限&#xff08;只能是字符&#xff09;是线性表的推广和受限…

【力扣 困难 C】940. 不同的子序列 II

目录 题目 解法一&#xff1a;动态规划 题目 解法一&#xff1a;动态规划 int distinctSubseqII(char* s) {const int mod 1000000007;int dp[26] {0};int cnt 1;int len strlen(s);for (int i 0; i < len; i) {int new (cnt - dp[s[i] - a] mod) % mod;cnt (cnt…

【用户权限】chmod的简单使用(一)

一、用户和权限的基本概念 用户是 Linux 系统工作中重要的一环&#xff0c;用户管理包括用户与组管理。在 Linux 系统中&#xff0c;不论是由本机或是远程登录系统&#xff0c;每个系统都必须拥有一个账号&#xff0c;并且对于不同的系统资源拥有不同的使用权限。在Linux中&am…

Electron桌面程序初体验

Electron 是网页应用 (web apps) 的一个原生包装层&#xff0c;在 Node.js 环境中运行。所以需要开发者对 Node.js 和前端 Web 开发有一定地了解。下面我们就来初始化一个项目&#xff0c;试试看。 提示&#xff1a;本人使用的是npm命令&#xff0c;yarn命令也是可以的 1.初…

生信软件47 - 超低测序深度的全基因组测序cfDNA肿瘤分数估计工具ichorCNA

1. ichorCNA简介 ichorCNA是一种用于估计来自超低测序深度的全基因组测序&#xff08;ULP-WGS&#xff0c;0.1x覆盖率&#xff09;的cfDNA中肿瘤分数的工具。ichorCNA使用概率模型&#xff0c;应用隐马尔可夫模型&#xff08;HMM&#xff09;&#xff0c;以同时分割基因组&…

Python 解压缩(支持.zip/.rar/.7z格式)

&#x1f91f;致敬读者 &#x1f7e9;感谢阅读&#x1f7e6;笑口常开&#x1f7ea;生日快乐⬛早点睡觉 &#x1f4d8;博主相关 &#x1f7e7;博主信息&#x1f7e8;博客首页&#x1f7eb;专栏推荐&#x1f7e5;活动信息 文章目录 Python 解压缩&#xff08;支持.zip/.rar/.7…