Python爬取豆瓣短评并生成词云分析

、项目概述

本项目的目标是爬取豆瓣上某部电影的短评数据,并生成词云进行情感分析。我们将使用Python编程语言,借助爬虫技术获取数据,并利用自然语言处理和数据可视化工具进行分析。具体步骤包括:

  1. 爬取豆瓣短评数据。
  2. 数据清洗和预处理。
  3. 使用词云技术生成可视化结果。
  4. 分析词云结果,提取关键信息。

二、技术栈

  • Python:强大的编程语言,支持多种库和框架。
  • Requests:用于发送HTTP请求,获取网页数据。
  • BeautifulSoup:用于解析HTML页面,提取所需数据。
  • jieba:中文分词库,用于对短评进行分词处理。
  • wordcloud:用于生成词云,展示高频词汇。
  • matplotlib:用于绘制词云图像。

三、爬取豆瓣短评

1. 环境准备

在开始之前,需要安装以下Python库:

pip install requests
pip install beautifulsoup4
pip install jieba
pip install wordcloud
pip install matplotlib

2. 爬虫实现

豆瓣的短评数据可以通过访问电影详情页的短评部分获取。以下是爬取豆瓣短评的代码实现:

import requests
from bs4 import BeautifulSoup# 代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 构造代理服务器的认证信息
proxies = {"http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}","https": f"https://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
}def get_douban_comments(movie_id, start=0, limit=20):"""爬取豆瓣电影短评:param movie_id: 豆瓣电影ID:param start: 起始评论位置:param limit: 每次获取的评论数量:return: 评论列表"""comments = []headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}url = f"https://movie.douban.com/subject/{movie_id}/comments?start={start}&limit={limit}"response = requests.get(url, headers=headers, proxies=proxies)  # 使用代理if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')comment_items = soup.find_all('div', class_='comment')for item in comment_items:comment = item.find('p', class_='comment-content').get_text().strip()comments.append(comment)return comments# 示例:爬取电影《肖申克的救赎》的短评
movie_id = '1292052'  # 豆瓣电影ID
all_comments = []
for i in range(0, 100, 20):  # 获取前100条评论comments = get_douban_comments(movie_id, start=i)all_comments.extend(comments)print(f'共获取到 {len(all_comments)} 条短评')

3. 数据清洗

爬取到的短评数据可能包含HTML标签、特殊字符或无关信息,需要进行清洗和预处理。以下是数据清洗的代码:

import redef clean_comments(comments):"""清洗短评数据:param comments: 评论列表:return: 清洗后的评论列表"""cleaned_comments = []for comment in comments:# 去除HTML标签和特殊字符cleaned_comment = re.sub(r'<.*?>', '', comment)cleaned_comment = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]', ' ', cleaned_comment)cleaned_comments.append(cleaned_comment)return cleaned_commentscleaned_comments = clean_comments(all_comments)
print(cleaned_comments[:5])  # 查看清洗后的前5条评论

四、生成词云

词云是一种常见的文本可视化方式,通过将高频词汇以更大的字体显示,直观地展示文本内容的重点。以下是生成词云的代码实现:

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as pltdef generate_wordcloud(comments):"""生成词云:param comments: 评论列表"""# 合并所有评论为一个长文本text = ' '.join(comments)# 使用jieba进行中文分词words = jieba.cut(text)word_text = ' '.join(words)# 创建WordCloud对象wordcloud = WordCloud(font_path='path/to/simhei.ttf',  # 指定中文字体路径width=800,height=600,background_color='white',  # 设置词云背景颜色max_words=100,  # 设置最多显示的单词数min_font_size=10,  # 设置最小字体大小max_font_size=100,  # 设置最大字体大小).generate(word_text)# 使用matplotlib绘制词云plt.figure(figsize=(10, 8))plt.imshow(wordcloud, interpolation='bilinear')plt.axis('off')  # 关闭坐标轴plt.show()generate_wordcloud(cleaned_comments)

5. 中文字体问题

在生成词云时,需要注意中文字体的处理。默认情况下,WordCloud库不支持中文字符,因此需要指定一个支持中文的字体文件路径。例如,可以使用Windows系统中的“simhei.ttf”(黑体)字体文件。

五、词云分析

通过生成的词云,我们可以直观地看到高频词汇,从而分析用户对电影的评价。例如,如果词云中出现了“感人”“经典”“震撼”等词汇,则表明用户对该电影的评价较为积极;如果出现“无聊”“拖沓”“差”等词汇,则可能表示用户对该电影的评价不佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87320.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87320.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Controller Area Network (CAN) 通信机制简介

目录 1. CAN 概述 2. 物理结构与传输机制 3. 消息格式与仲裁机制 4. 错误检测与总线状态 5. 工业用 CAN 接口 6. 本讲总结 1. CAN 概述 CAN&#xff08;Controller Area Network&#xff09;是由德国博世&#xff08;Bosch&#xff09;公司于 1983 年提出的串行通信协议…

我有一个想法

我有一个想法 我想为家乡做点事情&#xff0c;但是又不知道从哪里开始。 也许为家乡的教育做点事情是比较靠谱的。 于是&#xff0c;我就想到了&#xff0c;是不是可以在高中学校&#xff0c;设立一个“鸿鹄”奖学金&#xff1f; 这个奖学金怎么使用呢&#xff1f; 在每年9月份…

【Pandas】pandas DataFrame stack

Pandas2.2 DataFrame Reshaping sorting transposing 方法描述DataFrame.droplevel(level[, axis])用于**从 DataFrame 的索引&#xff08;行或列&#xff09;中删除指定层级&#xff08;level&#xff09;**的方法DataFrame.pivot(*, columns[, index, values])用于重塑 Dat…

Java 自动关闭资源语法糖 - try-with-resources

文章目录 Java 自动关闭资源语法糖 - try-with-resources前言优势1、自动资源管理2、处理多重资源3、异常处理更健壮4、适用条件 总结 Java 自动关闭资源语法糖 - try-with-resources 前言 日常开发中&#xff0c;我们经常会看到如下代码&#xff1a; try (InputStream is …

MyBatis中的动态SQL是什么?

大家好&#xff0c;我是锋哥。今天分享关于【MyBatis中的动态SQL是什么&#xff1f;】面试题。希望对大家有帮助&#xff1b; MyBatis中的动态SQL是什么&#xff1f; 超硬核AI学习资料&#xff0c;现在永久免费了&#xff01; MyBatis中的动态SQL指的是根据不同的条件&#x…

【Java反射】如何新增对象中的属性,与JavaScript中的直接添加属性有什么区别?

问&#xff1a; Object obj new Object(); //获取一个类的class对象 Class<?> objClass Object.class; try { //通过newInstance方法创建一个新的属性 Field newField Field.class.newInstance(); newField.setAccessible(true); newField.set(obj, “index”); }ca…

java spring boot Swagger安装及使用

https://springdoc.org/ 可能原因分析 &#x1f50d; 原因 1&#xff1a;SpringFox 版本与 Spring Boot 版本不兼容 ❌ SpringFox 3.0.0 不完全兼容 Spring Boot 2.6 及更高版本&#xff0c;可能导致 NullPointerException。 Spring Boot 3.x 完全不支持 SpringFox&#xff0c…

电商云仓/前置仓的物流高效监控、管理、预警系统,快递鸟DMS

在电商行业蓬勃发展的当下&#xff0c;电商云仓和前置仓作为物流配送体系的关键环节&#xff0c;其高效运作直接影响着消费者体验与企业竞争力。快递鸟 DMS 物流交付管理平台&#xff0c;以其卓越的物流监控、管理及预警功能&#xff0c;成为电商企业优化云仓和前置仓物流管理的…

HarmonyOS Next深度解析:高德定位SDK高效集成与实战指南

HarmoyOS Next 实现高德定位SDK 注&#xff1a;作者采用版本为 HarmonyOS 5.0.0 Release SDK和DevEco Studio 5.0.0 Release。 1.获取本地AppID&#xff1a; 在index.pages的abountToAppear( ) 方法中获取appID、并打印在Log日志&#xff0c;即可在程序运行时获取本地项目的…

【技术】记一次 Docker 中的 ES 数据迁移,使用 Reindex API

记一次 Docker 中的 ES 数据迁移&#xff0c;使用 Reindex API 环境背景需求背景开始迁移确认老 ES 的访问地址在新 ES 中创建索引的 Mapping (选配)在新 ES 中配置老 ES 的地址开始迁移数据数据验证 首先声明&#xff0c;是因为环境限制&#xff0c;没有办法使用同步工具&…

yii2基础版本安装记录,实录有点乱看标题即可

因为使用php 安装的是docker环境所有进入到容器安装ridh_mfe_api 为挂载目录 Nginx及PHP挂载配置 因为使用php 安装的是docker环境所有进入到容器安装 ridh_mfe_api 为挂载目录 进入容器 % docker exec -it php sh /var/www/html # ls index.html index.php composer crea…

前端跨域解决方案(3):CORS

1 CORS 核心 CORS&#xff08;Cross-Origin Resource Sharing&#xff09;&#xff0c;即跨域资源共享&#xff0c;是目前最主流的跨域方案&#xff0c;它通过服务器返回的特殊 HTTP 头&#xff0c;允许浏览器放行跨域请求。与传统的 JSONP 相比&#xff0c;CORS 具有明显的优…

SpringBoot源码解析(十五):spring-boot-autoconfigure.jar的模块化设计

前言 SpringBoot的自动配置是其革命性特性的核心&#xff0c;而spring-boot-autoconfigure.jar则是这一机制的物理载体。本文将深入剖析这个JAR包的模块化设计哲学&#xff0c;从包结构划分、条件注解体系到自动配置加载机制&#xff0c;全方位解析SpringBoot如何通过精妙的模…

学习笔记九:docker容器日志问题

docker容器日志问题 背景如何处理日志问题主要通过日志轮询方式处理。修改 Docker 配置日志快速清理 背景 Docker 默认使用的是 json-file 日志驱动。日志会一直写&#xff0c;一直写&#xff0c;没有限制、没有轮转、没有清理&#xff01; 日志默认位置&#xff1a; /var/lib…

低成本同屏方案:电脑 + 路由器实现 50 台安卓平板实时同屏

引言 在教育机构、小型培训场景或企业简易会议中&#xff0c;常面临以最低成本实现多设备同屏的需求。本文针对 "电脑 路由器 50 台安卓平板" 的极简硬件组合&#xff0c;详细剖析实时同屏的实现路径&#xff0c;从问题分析到技术落地提供全流程解决方案&#xff0…

Unity ECS DOTS技术实现50000个cube随机循环移动流程

前言 之前使用过ECS面向组件开发&#xff0c;一直想试一下Unity的ECS DOTS技术&#xff0c;但是苦于入门门槛太高&#xff0c;下载官方的Demo&#xff0c;发现代码哪哪儿都看不懂&#xff0c;一大堆API闻所未闻&#xff0c;而且没有一个入门的流程&#xff0c;导致无法进行下去…

设计模式精讲 Day 3:抽象工厂模式(Abstract Factory Pattern)

【设计模式精讲 Day 3】抽象工厂模式&#xff08;Abstract Factory Pattern&#xff09; 文章简述 在软件开发中&#xff0c;随着业务复杂度的提升&#xff0c;系统需要支持多种产品族的创建。抽象工厂模式正是为了解决这一问题而诞生的设计模式之一。本文作为“设计模式精讲”…

Kafka消息零丢失架构设计:从原理到实战的全方位保障

引言 在构建高可靠分布式系统时&#xff0c;Kafka作为核心消息中间件被广泛应用于数据管道、实时流处理等关键场景。然而&#xff0c;分布式环境下的网络波动、节点故障等因素可能导致消息丢失&#xff0c;如何确保Kafka实现端到端的消息零丢失成为架构设计的关键挑战。本文将…

Python学习笔记:错误和异常处理

1. 什么是错误和异常 在Python中&#xff0c;错误可以分为两类&#xff1a; 语法错误(Syntax Errors)&#xff1a;代码不符合Python语法规则异常(Exceptions)&#xff1a;语法正确的代码在运行时发生的错误 # 语法错误示例 print("Hello World" # 缺少右括号# 异…

为什么要进行行为验证,行为验证方式有哪些?

进行行为验证的主要目的是提高账户安全性、防范自动化攻击、增强用户身份确认精准度、优化用户体验。其中&#xff0c;提高账户安全性最为关键。行为验证能通过分析用户的行为模式&#xff0c;如操作习惯、设备使用特点等&#xff0c;识别出非正常或恶意活动&#xff0c;迅速采…