数据分析基本内容(第二十节课内容总结)

1.pd.read_csv('一个文件.csv')

本地文件加载数据,返回一个 DataFrame 对象,这是 pandas 中用于存储表格数据的主要数据结构

2.df.head()

查看数据的前五行,帮助快速了解数据的基本结构和内容

3.df.info()

查看数据的特征,包括每列的非空值数量、数据类型以及内存使用情况

4.df.shape

返回数据的行数和列数,帮助了解数据的规模

5.df.describe()

生成数据的描述性统计信息,如均值、标准差、最小值、最大值等,但默认只对数值型列进行统计

6.df.drop_duplicates(inplace = False)

删除重复行inplace=False 表示返回一个新的 DataFrame,而不修改原数据

7.data.reset_index(inplace = True,drop = True)

重置索引drop=True 表示丢弃旧的索引

inplace=True:直接在原数据上修改,节省内存,但会改变原始数据。

inplace=False:返回一个新的数据对象,原始数据保持不变

drop:用于删除行或列,可以通过 inplace 参数控制是否直接修改原数据

8.data.loc[data['sale_count'].isnull()].head() 和                                                                                                                                          data.loc[data['comment_count'].isnull()].tail()

分别查看 sale_countcomment_count 列中缺失值的前五行和后五行,帮助了解缺失数据的情况

9.data.fillna(0)

用 0 填补所有缺失值

10.data.isnull().any()

检查数据中是否还有缺失值

11.lcut_for_search

针对搜索引擎的分词模式,更适合提取关键词

12.data.groupby('店名')['销售额'].sum()

按店铺名称(店名分组计算每个店铺的销售

13.plt.pie绘制饼图

autopct='%0f%%'

显示百分比格式

pctdistance=0.9

百分比标签与饼图中心的距离

14.plt.bar绘制柱状图

15.ci=0:不显示置信区间

16.plt.tight_layout():

自动调整子图的布局,避免标签重叠

17.pctdistance

pctdistance 的值小于 1,百分比标签会显示在饼图内部,距离圆心越近,值越小

pctdistance 的值大于 1,百分比标签会显示在饼图外部

18.ascending

ascending=True  表示按照升序排序(从小到大)

ascending=False  表示按照降序排序(从大到小)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/95260.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/95260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年最新原创多目标算法:多目标酶作用优化算法(MOEAO)求解MaF1-MaF15及工程应用---盘式制动器设计,提供完整MATLAB代码

一、酶作用优化算法 酶作用优化(Enzyme Action Optimizer, EAO)算法是一种2025年提出的新型仿生优化算法,灵感源于生物系统中酶的催化机制,发表于JCR 2区期刊《The Journal of Supercomputing》。其核心思想是模拟酶与底物的特异性…

用 COLMAP GUI 在 Windows 下一步步完成 相机位姿估计(SfM) 和 稀疏点云重建的详细步骤:

使用 COLMAP GUI 进行 SfM 和稀疏点云重建的步骤1. 打开 COLMAP GUI运行 colmap.bat,会弹出图形界面。2. 新建项目(或打开已有项目)点击菜单栏的 File > New Project,选择一个空文件夹作为项目目录(建议新建一个空目…

天线设计 介质材料PEC和FR4有什么区别吗

在电磁仿真(包括 CST 中),PEC 和 FR4 是两种完全不同的材料类型,主要区别如下:材料性质:PEC(Perfect Electric Conductor,理想电导体):是一种理论上的理想材料…

mysql锁+索引

mysql锁按锁的粒度分类表级锁(Table - level locks)特点:对整张表进行锁定,实现简单,加锁和释放锁的速度快,但并发度较低。当一个事务对表加表级锁后,其他事务对该表的读写操作都可能被阻塞。应…

计算机视觉CS231n学习(7)

可视化和理解 这里主要是对CNN中间的层的结果可视化滤波器可视化 直接可视化网络各层的滤波器权重,高层滤波器的可视化结果趣味性较低,而底层滤波器通常对应边缘、纹理等基础视觉特征 (“高层滤波器” 通常指的是网络中靠后的卷积层所包含的滤…

OpenBMC中工厂模式的简明工作流程解析

本文将以最简单直接的方式,从零开始讲解OpenBMC中工厂模式的完整工作流程,包括从设计到使用的全生命周期。 1. 工厂模式最简示例 我们先从一个最基础的工厂模式实现开始: // 产品接口 class GpioPin { public:virtual void setValue(bool val…

解决:Error updating changes: detected dubious ownership in repository at

在通过 Git Bash 提交项目代码时输入 git add . 命令后,报错:Error updating changes: detected dubious ownership in repository at ...这是因为 该项目的所有者 与 现在的用户 不一致 比如说: 该项目的所有者是 Administrator,…

DataEase V2 社区版安装部署

参考:使用外置 MySQL 部署 DataEase v2 - FIT2CLOUD 知识库 一、下载安装包 开源社区 - FIT2CLOUD 飞致云 选择社区版下载 下载后上传到 linux 的目录 (要求至少200G) 二、在MySQL8中创建数据库 # 创建DataEase库 CREATE DATABASE datae…

nginx高性能web服务器

web服务基础介绍 一、Web服务核心流程 #mermaid-svg-NCj4hbRIvvgMXmcK {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-NCj4hbRIvvgMXmcK .error-icon{fill:#552222;}#mermaid-svg-NCj4hbRIvvgMXmcK .error-text{fil…

_init__.py的作用

目录 场景1:没有 `__init__.py` 的情况 场景2:有 `__init__.py` 并导入模块 场景3:用 `__all__` 定义"推荐工具" 注意:工具箱内部的工具互相调用 情况1:在 `__init__.py` 中导入模块 情况2:在 `__init__.py` 中直接导入模块里的功能 关键原则 在 Python 中,__…

浏览器面试题及详细答案 88道(12-22)

《前后端面试题》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…

开发避坑指南(23):Tomcat高版本URL特殊字符限制问题解决方案(RFC 7230 RFC 3986)

异常信息 java.lang.IllegalArgumentException: 在请求目标中找到无效字符[/order/show?orderType01&orderTitle0xe50x8f0xa30xe50xb20xb80xe50x8a0xa80xe60x800x81&pageNum1 ]。有效字符在RFC 7230和RFC 3986中定义org.apache.coyote.http11.Http11InputBuffer.parse…

HTTPS的应用层协议

HTTPS的应用层协议 方案 5 - 非对称加密 对称加密 证书认证 在客户端和服务器刚一建⽴连接的时候, 服务器给客户端返回一个 证书,证书包含了之前服务端的公钥, 也包含了网站的身份信息. 客户端进行认证 当客户端获取到这个证书之后, 会对证书进行校验(防止证书是伪…

【SpringBoot】05 容器功能 - SpringBoot底层注解的应用与实战 - @Configuration + @Bean

文章目录前言一、创建两个组件二、使用传统方式源代码解释三、使用SpringBoot方法源代码解释四、查看是否添加到组件中查看自定义组件名配置类在容器中注册的是单实例组件配置类本身也是容器中的一个组件Configuration的proxyBeanMethods属性:代理bean的方法proxyBe…

c#联合Halcon进行OCR字符识别(含halcon-25.05 百度网盘)

1.下载安装halcon 通过网盘分享的文件:halcon-25.05.0.0-x64-win64 链接: https://pan.baidu.com/s/1XAx-8ZQM-ZHkgHIc-dhCYw 提取码: whek 2.c#环境配置 创建test_halcon_ocr项目 找到halcon的安装路径 我的: D:\halcon\HALCON-25.05-Progress\bin\x64…

丝杆支撑座怎样助力升降设备实现智能化?

丝杆支撑座作为传动系统中的关键支撑部件,凭借其高刚性、抗冲击及精准定位能力,广泛应用于重型机械与升降设备领域,为设备提供稳定可靠的轴向承载与径向支撑,确保高负荷工况下的安全运行。电梯 / 升降平台:液压电梯的辅…

Notta:高效智能的音频转文字工具

本文转载自:Notta:高效智能的音频转文字工具 - Hello123 ** 一、产品简介 Notta 是一款基于 AI 语音识别引擎的语音转文字工具,支持 58 种语言的转录和 42 种语言的翻译。用户可通过实时录音或上传音频 / 视频文件(如 MP3、WAV …

Docker私有仓库创建及Docky存储与网络配置(小白的“升级打怪”成长之路)

目录 一、Docker私有仓库创建 1、在一台安装Docker私有仓库的主机上添加docker-compose 命令 2、安装docker-ce服务 3、Docker 镜像加速 4、安装Harbor仓库 5、使用脚本安装仓库 6、网站登陆 7、客户端使用Harbor仓库 二、Docky存储与网络配置 1、存储与网络 挂载主机…

谷歌ADK接入文件操作MCP

文章目录MCP基础概念文件操作服务器文件操作MCP接入谷歌ADK项目创建多轮对话代码MCP基础概念 MCP技术体系中,会将外部工具运行脚本称作服务器,而接入这些外部工具的大模型运行环境称作客户端。 一个客户端可以接入多个不同类型的服务器,但都…

高光谱技术的独特优势

高光谱技术凭借其‌纳米级连续光谱采集能力‌和‌图谱合一的探测模式‌,在多个领域展现出不可替代的独特优势:一、光谱维度:精细物质指纹识别‌纳米级连续光谱解析‌ 通过 ‌5-10nm带宽的数百个连续波段‌(最高330个通道&#xff…