什么是EDA(Exploratory Data Analysis,探索性数据分析)

EDA(Exploratory Data Analysis,探索性数据分析)是一种在正式建模前,通过统计量可视化方法来理解数据特征、发现模式与异常、并提出假设的过程。

这张图里你会看到:

  • 直方图:展示单变量的分布,并用红色虚线标出平均值,帮助理解集中趋势

  • 散点图:揭示两个变量之间的关系和可能的相关性

  • 方差柱状图:直观比较不同变量的波动大小

  • 均值标注:让你快速定位数据的中心位置

******  整理 by Moshow郑锴@https://zhengkai.blog.csdn.net/

这里再用表格梳理一下“平均值+方差、散点图+直方图”在 EDA 中的作用👇

方法/指标类型主要作用优点常见注意点
平均值 (Mean)描述性统计衡量数据的集中趋势直观易懂,计算简单容易受极端值影响
方差 (Variance)描述性统计衡量数据离散程度能反映波动大小受量纲影响,需要配合标准差使用
散点图 (Scatter Plot)可视化观察两变量之间的关系、趋势或聚类能发现相关性与离群点当数据量太大时可能变得难以辨别
直方图 (Histogram)可视化显示单变量的分布形态清晰展示分布特征和偏态组距选择影响效果

💡 小贴士:

  • 平均值+方差适合做数值型特征的整体概览

  • 散点图更适合找变量之间的关系

  • 直方图能帮助识别分布是否偏态、是否存在多峰

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/93465.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/93465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机毕业设计java的小天鹅酒店月子会所管理小天鹅酒店母婴护理中心管理系统设计小天鹅酒店产后护理会所信息化管理平台

计算机毕业设计java的小天鹅酒店月子会所管理9zl079(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。在当今数字化时代,随着人们对产后护理需求的不断增加,…

Docker-14.项目部署-DockerCompose

一.DockerCompose大家可以看到,我们部署一个简单的java项目,其中包含3个容器:MySQLNginxJava项目而稍微复杂的项目,其中还会有各种各样的其它中间件,需要部署的东西远不止3个。如果还像之前那样手动的逐一部署&#xf…

Vue组件基础解析

一、组件的核心意义 组件是Vue中实现UI复用与逻辑封装的基础单元,能将复杂UI拆分为独立、可重用的部分,最终组织成嵌套的树状结构(类似HTML元素嵌套)。Vue组件模型支持自定义内容与逻辑封装,也能兼容原生Web Component。 二、组件的定义方式 根据是否使用构建步骤,Vue…

第5问 对于数据分析领域,统计学要学到什么程度?

1. ​统计学在数据分析中的定位​​核心作用​:统计学是数据分析的底层方法论,涵盖数据描述、推断预测和模型构建。​两大分支​:​描述统计​(EDA阶段):数据清洗、特征工程的基础(如均值/分布/…

[go] 桥接模式

桥接模式 是一种结构型设计模式, 可将一个大类或一系列紧密相关的类拆分为抽象和实现两个独立的层次结构, 从而能在开发时分别使用。 模型说明抽象部分(Abstraction)提供高层控制逻辑,依赖于完成底层实际工作的实现对象…

GitHub的使用教程

第一章:准备工作 1.1:安装Git并设置你的GitHub账户 1.1.1:注册 GitHub 账号: 访问 https://github.com/ 并注册一个新账号。 可以使用qq邮箱进行注册 输入邮箱后点击sign up for GitHub,设置密码后进行注册,输入验…

Day56 Java面向对象10 方法重写

Day56 Java面向对象10 方法重写 1.为什么要方法重写 当子类不需要父类方法的全部内容 或 父类的方法无法满足子类的需求时,就需要在子类重写父类的方法 2.如何方法重写 重写必须发生在继承关系中,只能是子类重写父类子类重写的方法名必须和父类方法一致,方法体可以不同子类重写…

【C++】标准库中用于组合多个值的数据结构pair、tuple、array...

在 C 标准库中,有多种数据结构可用于组合多个值,每种结构都有其特定的设计目的和适用场景。以下是主要组合数据结构的分类解析: 一、核心组合数据结构 1. std::pair (C98) 用途:存储两个相关值(键值对、坐标点等&#…

深入解析C++ STL链表(List)模拟实现

目录 一、需要实现的三个类及其成员函数接口 二、结点类的模拟实现 构造函数 三、迭代器类的模拟实现 1、迭代器类的作用 2、迭代器类模板参数说明 3、构造函数 4、前置运算符重载 5、后置运算符重载 6、前置 -- 运算符重载 7、后置 -- 运算符重载 8、运算符重载 …

将mysql数据库表结构导出成DBML格式

前言 DBML(数据库标记语言)是一种简单易读的 DSL 语言,用于定义数据库结构。 因为需要分析商品模块的表设计是否合理,所以需要图形化表,并显示表之前的关系。 想来想去,找到了DBML。所以就需要将数据库结构…

玩转tokenizer

🌟 案例 1:加载现成的 BERT 分词器from tokenizers import Tokenizer# 加载一个预训练的 BERT tokenizer(文件需要提前下载,比如bert-base-uncased) tokenizer Tokenizer.from_file("bert-base-uncased-tokenize…

Day53--图论--106. 岛屿的周长(卡码网),110. 字符串接龙(卡码网),105. 有向图的完全联通(卡码网)

Day53–图论–106. 岛屿的周长(卡码网),110. 字符串接龙(卡码网),105. 有向图的完全联通(卡码网) 106. 岛屿的周长(卡码网) 方法:深搜 思路&am…

Elasticsearch 数据建模与映射(Mapping)详解

在 Elasticsearch 中,数据建模与映射(Mapping) 是决定搜索性能、存储效率和功能支持的核心环节。合理的映射设计能让搜索更精准、聚合更高效、存储更节省。 本文将全面详解 Elasticsearch 的 数据建模原则、字段类型、动态映射、自定义分析器…

5G工业一体机汽车零部件工厂的无纸化管理

在全球数字化转型的浪潮中,制造业对信息化、智能化的需求日益强烈。尤其是在汽车零部件领域,生产线的复杂性、质量追溯的苛刻性以及对效率的高要求,迫切需要一种高效、可靠、可扩展的管理模式。以“5G工业一体机”为核心的无纸化管理&#xf…

项目管理工具

1、概述IT 项目生命周期通常可分为启动、规划、执行、监控与控制、收尾五个核心阶段,每个阶段的目标和任务不同,所依赖的工具也各有侧重。以下按阶段梳理常用工具,涵盖项目管理、协作、技术开发等多个维度。2、启动阶段:明确项目目…

Linux 进程、线程与 exec/系统调用详解

1. wait 与 waitpid —— 子进程资源回收1.1 waitpid_t wait(int *wstatus);功能:阻塞等待,回收任意子进程的资源空间。参数:wstatus:保存子进程退出状态的变量地址NULL:不保存退出状态返回值:成功&#xf…

Laravel 使用ssh链接远程数据库

1.创建ssh ssh -i ./id_rsa -N -L 13306:127.0.0.1:3306 -p 22 root***对上述代码的解释: 命令是一个SSH隧道命令,用于将本地端口3306转发到远程服务器上的3306端口。以下是命令的详细解释:# 调用SSH客户端。 ssh # 指定用于身份验证的私钥文…

Python延申内容(一)

1.技术面试题 (1)TCP与UDP的区别是什么? 答: TCP(传输控制协议):面向连接、可靠传输(数据完整有序)、流量控制、拥塞控制,适用于文件传输、网页浏览等场景。 …

Java 9 新特性及具体应用

目录 1. 模块系统(Jigsaw) 2. JShell(REPL工具) 3. 集合工厂方法 4. 接口私有方法 5. Stream API 增强 6. HTTP/2 客户端(Incubator) 7. 多版本JAR包 总结 1. 模块系统(Jigsaw&#xff0…

第二十五天:构造函数/析构函数/拷贝构造

构造函数/析构函数/拷贝构造 1. 构造函数(Constructor) 定义与作用:构造函数是一种特殊的成员函数,其名称与类名相同,没有返回类型(包括 void 也没有)。它的主要作用是在创建对象时初始化对象的…