Python 数据挖掘之数据探索

        在数据挖掘的流程中,数据探索是非常关键的第一步,它能帮助我们深入了解数据的特点,为后续的预处理和模型构建打下坚实的基础。我们主要围绕四个方面展开:数据对象与特征、数据统计描述、数据可视化以及相关性和相似性度量。

一、数据对象与特征

首先,我们来认识一下数据对象和特征。数据集可以看作是由数据对象构成的集合,一个数据对象代表一个实体,它还有很多其他的称呼,比如记录、样本、实例等。而数据对象通常是由一组特征来描述的,这些特征刻画了对象的基本属性。

在数据库中,一行数据就对应一个数据对象,也被称为 “元组”,一列则对应一个特征。比如大家看这个包含销售记录的样本数据集,每一行是一个客户的购买记录,也就是一个数据对象,而客户 ID、购买日期、购买金额、购买商品 ID 这些就是描述这个对象的特征。

1. 特征及其类型

数据对象的特征可以用多种类型的数据来描述,我们把特征主要分为 5 种类型:标称特征、二元特征、序数特征、区间标度特征和比率标度特征。

标称特征是用于区分不同类别的标签,比如颜色、职业等,它的值没有顺序和大小之分。二元特征是一种特殊的标称特征,只能取两个值,比如性别中的男和女、是否购买等。序数特征的值有明确的顺序关系,但相邻值之间的差距不一定相等,比如成绩等级中的优、良、中、差。区间标度特征的值之间的差距是有意义的,但没有绝对零点,比如温度。比率标度特征不仅有差距意义,还有绝对零点,比如身高、体重等。

2. 离散和连续特征

从特征的取值数量角度,我们还可以把特征分为离散特征和连续特征。

离散特征在一定区间内有有限个取值,可以用整数、符号、布尔值等表示。像标称特征、二元特征、序数特征和整数数值特征通常都是离散特征,比如职工人数、设备台数、性别等。

连续特征则可以在一定区间内任意取值,有无限个取值,区间标度特征和比率标度特征一般属于连续特征,比如生产零件的规格尺寸、人体的身高体重等。

二、数据统计描述

数据统计描述是通过计算一些统计度量指标来帮助我们认识数据,了解数据的分布特点,它通常包括集中趋势和离中趋势两类度量指标。

1. 集中趋势

集中趋势反映的是数据集中分布的中心位置。

首先是均值,也就是算术平均数,它是所有数据的总和除以数据的个数,能反映数据的平均水平。但均值容易受到极端值的影响。

然后是中位数,对于偏度较大的数据,中位数是更好的集中趋势度量指标。它是将数据排序后位于中间位置的那个值,如果数据个数是奇数,中间的那个值就是中位数;如果是偶数,通常取中间两个值的平均值。

众数则是在离散型特征中出现频数最高的值,只对离散特征有意义。有时候可能会出现多个众数,这样的数据被称为多峰数据。比如一组学生成绩中,85 分出现的次数最多,那 85 就是众数。

2. 离中趋势

离中趋势反映的是数据的离散程度。

极差是最简单的离中趋势指标,是数据中的最大值减去最小值,它能反映数据的波动范围,但只考虑了两个极端值,不够全面。

方差和标准差也是常用的指标。方差是每个数据与均值的差的平方的平均值,标准差是方差的平方根,它们都能反映数据的离散程度,值越大说明数据越分散。

四分位极差是上四分位数与下四分位数的差。四分位数是将数据排序后,把数据分成 4 等份的 3 个点,分别是 25% 位置的下四分位数(Q1)、50% 位置的中位数(Q2)和 75% 位置的上四分位数(Q3)。四分位极差能反映中间 50% 数据的离散程度,受极端值影响较小。

三、数据可视化

在数据挖掘中,利用图形工具对数据进行可视化,能让我们直观地观察数据的分布规律、特征之间的关系以及异常值等情况。

1. 散点图

散点图是将数据点绘制在二维或三维坐标系中,通过数据点的散布情况来观察数据的分布或特征之间的相关关系。

我们可以用 Matplotlib 模块中的 scatter () 函数来绘制散点图。两个特征之间的相关性有多种情况,比如完全线性正相关、完全线性负相关、线性正相关、线性负相关、线性无关和非线性相关等。从散点图中,我们能很直观地看出这些关系。

2. 箱线图

箱线图也称盒图,主要用来展现数据的分布,包括上四分位数、下四分位数、中位数等,还能反映数据的异常情况。箱线图通过绘制数据的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)来展示数据的分布特征,超出一定范围的数据点可能被视为异常值。

3. 频率直方图

频率直方图由一系列高度不等的纵向条纹组成,横轴表示数据类型,纵轴表示分布情况,它能直观地展示数据的频率分布,让我们了解数据在不同区间的分布密度。

4. 柱状图

柱状图以长方形的长度为变量,用高度不等的纵向条纹来表示数据大小,主要用于比较两个或以上的变量。它也可以横向排列,或者用多维方式表达。比如这个展示三个品种鸢尾花数量的柱状图,能很清楚地看出不同品种数量的差异。

5. 饼图

饼图是一个划分为几个扇形的圆形统计图,用于描述数量、频率或百分比之间的相对关系。每个扇区的弧长大小代表其所表示的数量的比例,所有扇区合起来是一个完整的圆。比如这个展示三个品种鸢尾花所占比例的饼图,每个品种占比 33.3%。

6. 散点图矩阵

散点图矩阵和简单散点图不同,它可以同时展示多个特征的分布情况以及两两特征之间的关系,能帮助我们更全面地了解特征之间的关联。

四、相关性和相似性度量

在数据探索中,有两项重要工作:一是观察特征之间是否存在相关性,判断是否有冗余特征,以及特征和目标变量的相关性,为特征工程提供依据;二是计算数据之间的相似性,这是很多数据挖掘模型的基础。

1. 数据相关性度量

相关性是衡量不同特征之间相关关系的指标,常用的有协方差、皮尔逊相关系数、斯皮尔曼相关系数、肯德尔相关系数等。

皮尔逊相关系数用于衡量两个连续变量之间的线性相关性程度,它是两个变量协方差与标准差乘积的商,取值范围在 - 1 到 1 之间,绝对值越接近 1,线性相关性越强。

斯皮尔曼相关系数主要用于描述分类或等级变量之间、分类或等级变量与连续变量之间的关系,它通过关注两个变量的秩次大小来计算相关性。

肯德尔相关系数也是一种秩相关系数,用于度量两个等级变量的相关程度或单调关系强弱,它通过计算一致对和分歧对之差与总对数的比值得到。

2. 数据相似性度量

相似性是度量数据对象之间相似程度的方法,是聚类、推荐等模型的核心概念。不同类型的数据有不同的相似性度量指标。

杰卡德相似系数适用于二元特征,它是两个集合交集的大小与并集大小的比值。

余弦相似度常用于文档数据,它通过计算两个向量的夹角余弦值来衡量它们的相似性。

对于数值特征,常用的距离度量有欧式距离,也就是两点之间的直线距离;曼哈顿距离,类似城市中两点之间的直角边距离;还有马氏距离、切比雪夫距离等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88939.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88939.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高并发点赞场景Synchronized、AtomicLong、LongAdder 和 LongAccumulator性能分析

在高并发点赞场景中,我们需要一个高效、线程安全的计数器来记录点赞数。synchronized、AtomicLong、LongAdder 和 LongAccumulator 都是 Java 中用于实现原子操作的类,但它们的性能在高并发下差异显著。性能主要取决于线程竞争程度:竞争越高&…

postgreSQL的sql语句

目录 一:前提准备1.postgreSQL的安装可以参考我下面一片文章: 二:SQL语句 1.相同点:支持标准sql类型 2.参考详细学习地址: 3.postgresql与mysql的不同点 一:前提准备 1.postgreSQL的安装可以参考我下面…

vue3 JavaScript 数据累加 reduce

在Vue 3中,你可以使用JavaScript的reduce方法来处理数据累加。reduce方法通常用在数组上,它将数组中的每个元素通过一个累加器函数(accumulator)从左到右累积,最终生成一个单一的值。这在计算总和、累加值等场景中非常…

史上最清楚!读者,写者问题(操作系统os)

读者-写者问题是另一个里程碑式的同步互斥问题。它比生产者-消费者更复杂,因为它引入了不对称的访问权限:读者和读者之间是共享的,但写者和任何人(包括读者和其他写者)之间都是互斥的。我们用一个生动的比喻来解析这个…

使用Starrocks替换Clickhouse的理由

背景 Starrocks和clickhouse都是非常优秀的OLAP数据库,那么什么情况下使用clickhouse,什么场景下使用starrocks呢,本文就简单列举一下他们的优缺点 理由 首先两者都是列存储,并且都实现了列压缩,所以从存储中两者的压缩…

Mybatis 两级缓存可能导致的问题

Mybatis 两级缓存可能导致的问题两级缓存简介一级缓存 localCache效果开关二级缓存两级缓存可能导致的问题分布式环境下查询到过期数据事务隔离级别失效读已提交失效读未提交失效总结两级缓存简介 一级缓存 localCache 效果 一级缓存是 session 或者说事务级别的&#xff0c…

vue3+uniapp 使用vue-plugin-hiprint中实现打印效果

前言: vue3uniapp 使用vue-plugin-hiprint中实现打印效果 官网地址:gitee https://gitee.com/ccsimple/vue-plugin-hiprinthttps://gitee.com/ccsimple/vue-plugin-hiprint 实现效果: 预览打印内容: 实现步骤: 1、安…

【elementUI踩坑记录】解决 el-table 固定列 el-table__fixed 导致部分滚动条无法拖动的问题

目录一、问题背景二、 问题现象三、核心原因四、解决办法增强方案🚀写在最后一、问题背景 在使用 Element UI 的 el-table 组件时,固定列功能虽然实用,但会引发滚动条交互问题: 固定列区域悬浮显示滚动条但无法正常拖动滚动条 …

【机器人编程基础】python文件的打开和关闭

文件的打开和关闭 在Python中,文件操作是一项基本而重要的任务,涉及到打开、读取、写入、关闭文件等操作。正确地管理文件对于数据持久化、输入输出处理等至关重要。下面将详细解释如何在Python中打开和关闭文件,并提供相应的代码示例。 文件打开 在Python中,可以使用内…

ShenYu实战、问题记录

概述 一款高性能的国产的Apache开源API网关,官方文档。 在ShenYu v2.6.1, ShenYu注册中心只支持http类型,中间件注册类型已经被移除。 所以,请使用http注册类型来注册你的服务。不是微服务注册中心,它只是将元数据、选择器数据、…

走近科学IT版:EasyTire设置了ip,但是一闪之后就变回到原来的dhcp获得的地址

EasyTier 是一款简单、安全、去中心化的内网穿透和异地组网工具,适合远程办公、异地访问、游戏加速等多种场景。无需公网 IP,无需复杂配置,轻松实现不同地点设备间的安全互联。 上次实践的记录:适合远程办公、异地访问的EasyTier…

rk3588平台USB 3.0 -OAK深度相机适配方法

目录 文件更改记录表 1、usb规则添加 2、拉取相关依赖 3、安装python3、安装pip 4、安装依赖 5、安装ffmeg 6、摄像头功能测试 7、将视频拷贝到U盘查看 1、usb规则添加 由于OAK是USB设备,因此为了在使用 udev 工具的系统上与之通信, 您需要添加udev规则以使…

工厂模式总结

工厂模式1. 简单工厂模式&#xff08;Simple Factory&#xff09; 核心思想 定义一个工厂类&#xff0c;根据输入参数创建不同的具体对象。客户端不直接调用具体类的构造函数&#xff0c;而是通过工厂类获取对象。 示例代码 #include <iostream> #include <memory>…

MySQL的三种安装方式(mis、zip、yum)

目录 2.0数据库安装 2.1windows上.mis格式 环境准备 MySQL的安装 环境配置&#xff08;非必要&#xff09; 2.2windows上.zip格式安装 环境准备 配置文件的内容 MySQL的安装 附录可能出现问题 图形工具远程连接数据库 2.3Linux上安装yum包 环境准备 过程命令 My…

串口学习和蓝牙通信HC05(第八天)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;开发者-削好皮的Pineapple! &#x1f468;‍&#x1f4bb; hello 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 削好皮的Pineapple! 原创 &#x1f468;‍&#x1f4b…

设计总监的“轻量化”新武器:用Adobe Express,音频一键驱动动画

在快节奏的创意项目中&#xff0c;如何将复杂的设计理念或冗长的研究报告&#xff0c;快速转化为易于理解、富有吸引力的动态内容&#xff0c;是衡量一个团队沟通效率的关键。作为一名在海外设计界工作了十余年的设计师&#xff0c;我发现&#xff0c;最高效的团队&#xff0c;…

零知开源——STM32F407VET6驱动SHT41温湿度传感器完整教程

✔零知开源是一个真正属于国人自己的开源软硬件平台&#xff0c;在开发效率上超越了Arduino平台并且更加容易上手&#xff0c;大大降低了开发难度。零知开源在软件方面提供了完整的学习教程和丰富示例代码&#xff0c;让不懂程序的工程师也能非常轻而易举的搭建电路来创作产品&…

Linux流量分析:tcpdump wireshark

前言 最近因为工作需要&#xff0c;研究了下如何使用tcpdump和wireshark分析业务流量。如果要使用tcpdump分析具体的HTTP请求耗时&#xff0c;需捕获网络数据包并分析时间戳信息&#xff0c;重点关注TCP连接的建立、HTTP请求发送到响应接收的全过程。 以下是具体步骤和技巧&…

深度学习图像分类数据集—角膜溃疡识别分类

该数据集为图像分类数据集&#xff0c;适用于ResNet、VGG等卷积神经网络&#xff0c;SENet、CBAM等注意力机制相关算法&#xff0c;Vision Transformer等Transformer相关算法。 数据集信息介绍&#xff1a;角膜溃疡识别分类&#xff1a;[dot, mix, slice] 训练数据集总共有270张…

功能强、超好用【PDF转换工具】的介绍下载与安装教程

Windows 电脑上一款简单好用的PDF转换工具&#xff0c;可以轻松地将其他文档转换为 PDF 格式&#xff0c;也可以将 PDF 文件转换为其他格式&#xff0c;如常见的 Word、Excel、PPT 等。 此外软件还支持 Office 文档合并分割、旋转页面、拼接页面、删除文字、删除页面、添加水印…