【数据分析四：Data Preprocessing】数据预处理

【数据分析四：Data Preprocessing】数据预处理

diannao/2025/6/19 12:07:18/文章来源:https://blog.csdn.net/2301_79853895/article/details/148723924

一、数据预处理

直接收集的数据通常是“脏的”：

不完整、不准确、不一致

数据预处理是进行大数据的分析和挖掘的工作中占工作量最大的一个步骤（80%）

二、处理缺失值

处理缺失数据的方法：首先确认缺失数据的影响

数据删除（可能丢失信息，或改变分布）

删除数据

删除属性

改变权重

数据填充

特殊值填充

·空值填充，不同于任何属性值。例，NLP词表补0，DL补mask

·样本/属性的均值、中位数、众数填充

使用最可能的数据填充

·热卡填充（就近补齐）

·K最近距离法（KNN）

·利用回归等估计方法

·期望值最大化方法（EM算法）

热卡填充

完整数据中找到1个与它最相似的样本，然后用该样本的值来进行填充

K最近距离法

根据相关分析(距离)来确定距离缺失数据样本的最近K个样本

将这K个值加权平均估计样本缺失数据

回归法

基于数据集，建立回归模型

将已知属性值代入模型来估计未知属性值，以此预测值

期望值最大化方法（EM算法）

在缺失类型为随机缺失的条件下，通过观测数据的边际分布可以对未知参数进行极大似然估计

EM算法在每一迭代循环过程中交替执行两个步骤：

E步（Excepctaion step, 期望步），在给定完全数据和前一次迭代所得到的隐含参数估计的情况下计算完全数据对应的对数似然函数的条件期望

M步（Maximzation step，极大化步），用极大化对数似然函数以确定参数(更新隐含参数)的值，并用于下步的迭代

三、清洗噪声

噪声是测量误差的随机部分

包括错误值，或偏离期望的孤立点值

需要对数据进行平滑

常用的处理方法

分箱(binning)

利用近邻数据对数据进行平滑

例如：

回归(Regression)

让数据适应回归函数来平滑数据识别离群点，常用聚类方法监测并且去除孤立点

四、数据集成

将多个数据源的数据整合到一个一致的数据存储中

而集成数据（库）时，经常出现冗余数据

冗余数据带来的问题: 浪费存储、重复计算

冗余的属性

冗余的样本

例如：

用户的电商记录出现在很多app中

用户的个人信息在多个app中

检测冗余的方法

而对于部分冗余样本（不同于冗余属性，属性>样本）

方法一：距离度量

欧几里得距离、曼哈顿距离、汉明距离、明氏距离......

方法二：相似度计算

余弦相似度、Jaccard相似度

五、距离度量

欧几里得距离(Euclidean Distance)

$dist=\sqrt{\sum_{k=1}^{n}(p_k-q_k)^2}$

汉明距离(Hamming Distance)

两个向量之间不同值的个数。

字符串比较：比较两个相同长度的二进制字符串

明氏距离（Minkowski Distance）

$dist=(\sum_{k=1}^{n}(p_k-q_k)^r)^{1/r}$

r 是参数

n 表示数据 p 和 q 维度数， $p_k$ 和 $q_k$ 表示数据 p 和 q 的第 k 个属性

r=1：曼哈顿距离

r=2：欧氏距离

r= $\infty$ ：切比雪夫距离

马氏距离：数据的协方差距离

$mahalanobis(p,q)=(p-q)\sum^{-1}(p-q)^T$

下图中，红色的数据点, 欧氏距离为14.7, 马氏距离为6

马氏距离把方差归一化，使得特征之间的关系更加符合实际情况。

六、相似度计算

数据p和q，定义如下4个变量

F01：p为0，q为1的属性数量

F10：p为1，q为0的属性数量

F00：p为0，q为0的属性数量

F11：p为1，q为1的属性数量

简单匹配 Simple Matching

SMC = number of matches / number of attributes

= (F11 + F00) / (F01 + F10 + F11 + F00)

Jaccard 相关系数

Jaccard = number of 11 matches / number of non-zero attributes

= (F11) / (F01 + F10 + F11)

余弦相似度

Pearson相关系数

衡量两个数据对象之间的线性关系

数据标准化

可以简单理解为：p和q的协方差/(p的标准差∗q的标准差)

无序数据：每个数据样本的不同维度是没有顺序关系的

余弦相似度、相关度、欧几里得距离、Jaccard

有序数据：对应的不同维度(如特征)是有顺序(rank)要求的

比如在推荐系统中，如何判断不同推荐序列的好坏

引入如下两个系数：

Spearman Rank(斯皮尔曼等级)相关系数

$\rho_s$ 范围-1到1，代表负相关（-1）到正相关（1），以及中间的不相关（0）

不是很显然，所以举个例子

标准化的折损累计增益(NDCG)

NDCG：由于搜索结果随着检索词的不同，返回的数量不一致，而DCG是一个累加的值，没法针对两个不同的搜索结果进行比较，因此需要标准化处理，这里是除以IDCG:

IDCG为理想（ideal）情况下最大的DCG值，指推荐系统为某一用户返回的最好推荐结果列表(或者，真实的数据序列)

也不是很直观，找到一个例题：

七、数据变换

数据变换的目的是将数据转换成适合分析建模的形式

前提条件：尽量不改变原始数据的规律

数据规范化

目的：将不同数据（属性）按一定规则进行缩放，使它们具有可比性

映射到0-1范围，又称归一化

最小-最大规范化

对原始数据进行线性变换。把数据A的观察值v从原始的区间[minA，maxA]映射到新区间 [new_minA，new_maxA]

z-score规范化

最大最小值未知，或者离群点影响较大时，假设数据服从正态分布

某一原始数据(v)与原始均值的差再除以标准差，可以衡量某数据在分布中的相对位置

$v{}'=\frac{v-\bar{A}}{\sigma_A}$

小数定标规范化

通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值

八、数据的离散化

信息熵：度量系统的不确定程度

信息量

定义一个时间x的概率分布为P(x)

则事件x的自信息量是-logP(x), 取值范围0到正无穷

信息熵

平均而言，发生一个事件我们得到的自信息量大小

即：熵可以表示为自信息量的期望

$H=-\sum P(x)\log P(x)$

根据Entropy进行二分离散化

先找到一个分隔点（属性值），把所有数据分到两个区间

分别对两个子区间的数据进行二分隔

重复以上步骤

如何确定分隔点？--计算分隔后的信息增益

信息增益（Information Gain）：

信息增益：表示在某个条件下，信息不确定性减少的程度。

父节点 P 被分隔为 K 个区间

n 表示总记录数，n_i表示区间 i 中的记录数

确定分隔点 j ：

选择信息增益最大的分隔点，即

九、数据规约

目标：缩小数据挖掘所需的数据集规模

维度归约

减少所考虑的随机变量或属性的个数

方法：

主成分分析

特征子集选择

数值归约

用较小的数据表示形式替换原始数据

主成分分析(principal component analysis, PCA)

将原高维（如维度为N）数据向一个较低维度（如维度为K）的空间投影，同时使得数据之间的区分度变大。这K维空间的每一个维度的基向量（坐标）就是一个主成分

算法逻辑如下：

不足之处

·当原始数据的维度n特别大的时候，计算协方差时的 $X^TX$ 已经具有相当大的计算量

·针对协方差矩阵C的特征值求解过程计算效率不高

属性子集选择（特征子集）

做法：删除不相关或冗余的属性来减少维度与数据量

目标：找到最小属性集，使得数据的概率分布尽可能接近使用所有属性得到的原分布

例如决策树剪枝等操作

具体的奥秘还有很多：

奇异值分解(SVD)

矩阵分解(PMF)

深度学习(Deep Learning)

本节知识点非常多，欢迎大家补充，下一讲，我们讲述特征工程

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/87370.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/87370.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

一起来入门深度学习知识体系

一起来入门深度学习知识体系

前言什么是深度学习？它有什么魔力？ 想象一个机器人能识别人脸、写诗、翻译语言、甚至和你聊天。它是怎么学会这些能力的？答案正是——深度学习（Deep Learning）。简单来说，深度学习就像是教会一台计算机…

阅读更多...

Prompt+Agent+LLM：半导体炉管设备健康评估的落地实战

Prompt+Agent+LLM：半导体炉管设备健康评估的落地实战

引言在高端制造业的核心场景中，设备健康管理正面临前所未有的挑战。以半导体制造为例，一台价值数百万美元的炉管设备意外停机，可能导致整条产线瘫痪、晶圆批次报废，单日损失可达千万级。传统基于阈值规则的监控系统难以捕捉早期…

阅读更多...

PostgreSQL的扩展bloom

PostgreSQL的扩展bloom

PostgreSQL的扩展bloom 一、扩展概述 bloom 是 PostgreSQL 提供的一个基于**布隆过滤器(Bloom Filter)**的索引扩展，特别适合多列任意组合查询的优化场景。二、核心特性特性描述优势多列索引单索引支持多列组合减少索引数量模糊匹配高效处理和IN查询优于B-tre…

阅读更多...

算法与数据结构学习之旅：从入门到进阶

算法与数据结构学习之旅：从入门到进阶

在计算机科学的浩瀚宇宙中，算法与数据结构如同闪耀的恒星，驱动着整个程序世界的运转。无论是手机上流畅运行的 APP，还是搜索引擎瞬间返回的海量结果，背后都离不开算法与数据结构的精妙设计。对于想要深入探索计算机领域的开发者和…

阅读更多...

C++map和set类(简介)

C++map和set类(简介)

文章目录一、关联式容器二、键值对三、树形结构的关联式容器3.1 set类的简介3.2 set的接口3.2.1 set的模版参数列表3.2.2 set的构造3.2.3 set的迭代器3.2.4 set的容量3.2.5 set的修改操作 3.3 set的使用案例3.4 multiset类的介绍3.5 multiset的使用案例3.6 map类的简介3.7 map…

阅读更多...

圆柱电池自动化升级：面垫机如何破解生产痛点？

圆柱电池自动化升级：面垫机如何破解生产痛点？

在圆柱电池的生产流程中，面垫（绝缘垫片）的安装是保障电池安全与性能的关键环节。传统手工操作不仅效率低，还容易出现面垫偏移、漏贴等问题，影响产品一致性。圆柱电池自动面垫机的出现，通过自动化技术解决了…

阅读更多...

【AI Study】第四天，Pandas（1）- 基础知识

【AI Study】第四天，Pandas（1）- 基础知识

文章概要本文详细介绍 Pandas 库的基础知识，包括： Pandas 的基本概念和特点安装和配置方法核心数据结构（Series 和 DataFrame）各种数据类型的处理方法实际应用示例什么是 Pandas Pandas 是 Python 中最流行的数据分析库之一…

阅读更多...

重构气血经络的数学模型：气血经络级联控制系统核心方程

重构气血经络的数学模型：气血经络级联控制系统核心方程

从融智学视域，重构气血经络的数学模型摘要： 融智学视域，通过三元耦合框架，重构气血经络模型，建立跨学科认知体系。五大分支协同运作：数学融智学构建纤维丛模型，逻辑融智学建立防歧义语义网&…

阅读更多...

python爬虫:某网站价格数字加密破解

python爬虫:某网站价格数字加密破解

文章目录前言一、案例二、破解流程1.原理2.找到woff文件3.分析woff文件4.代码实现1.转化woff文件2.绘图并ocr识别3.映射数据三、总结前言有时我们在进行网页抓取采集数据时，有些重要的数据比如说价格,数量等信息会进行加密，通过复制或者简单的采集是…

阅读更多...

DigitalOcean 携手 AMD 推出 AMD Instinct™ MI300X GPU Droplet，加速 AI 创新

DigitalOcean 携手 AMD 推出 AMD Instinct™ MI300X GPU Droplet，加速 AI 创新

近日，DigitalOcean（NYS:DOCN）作为全球最简单易用的可扩展云平台，宣布与 AMD 建立合作，为 DigitalOcean 客户提供 AMD Instinct™ GPU，以 AMD Instinct™ MI300X GPU Droplet 的形式支持其 AI 工作负载。此举…

阅读更多...

小白畅通Linux之旅-----DNS项目实战配置

小白畅通Linux之旅-----DNS项目实战配置

目录一、项目要求 1、正反向解析配置 2、主从配置二、脚本编写配置 1、主服务器脚本编写 2、从服务器脚本编写三、项目检测 1、正反向解析检测 （1）主服务器脚本启动 （2）测试主机配置 （3）正反…

阅读更多...

Codigger：探索数字工作新架构

Codigger：探索数字工作新架构

在软件开发与数字工作领域，技术迭代的脚步从未停歇，开发者和系统管理员都在寻找更高效的工具和平台。Codigger 作为一项创新技术成果，凭借其独特的定位和架构，在行业内逐渐崭露头角。 Codigger “分布式操作系统”，它…

阅读更多...

微信中 qrcode 生成二维码长按无效果的解决方案

微信中 qrcode 生成二维码长按无效果的解决方案

引言我们先来看这样一段代码 <divid"qrcode"ref"qrcode"class"bind-code-img"style"height: 180px;width: 180px;margin-top: 22px;display: none; "></div> new QRCode("qrcode", {width: 210,height: 210,t…

阅读更多...

《网络安全与防护》作业复习

《网络安全与防护》作业复习

填空题 1. 网络数据库与数据安全专项作业填空题解析： 数据库安全的“三大核心目标”是完整性；保密性；可用性解释：数据库安全的三个核心目标是确保数据的完整性、保密性以及可用性，即保护数据不被篡改、未经授权访…

阅读更多...

【windows常见文件后缀】

【windows常见文件后缀】

文件后缀解释css层叠样式表（Cascading Style Sheets）：用于描述HTML或XML（包括如SVG、XHTML等XML方言）文档的呈现样式，控制网页的布局、颜色、字体等视觉效果。jsJavaScript：一种轻量级的解释型或…

阅读更多...

labelme启动报错动态链接库DLL初始化例程失败

labelme启动报错动态链接库DLL初始化例程失败

安装 pip install labelme启动 labelmewin11python3.12，pycharm venv 安装： pip install labelme，启动labelme报错： 降级numpy，降级onnxruntime pip install “numpy<2.0” pip install onnxruntime1.18.0 再次cm…

阅读更多...

Mybatis（javaweb第九天）

Mybatis（javaweb第九天）

Mybatis基础操作占位符：#{变量名} 注意事项：如果Mapper接口方法只有一个普通类型参数，属性名可以随便写 > Preparing: delete from emp where id? > Parameters: 1(Integer) 预编译SQL 不会将值直接放在SQL语句中，而是…

阅读更多...

C#开发MES管理系统源码工业生产线数据采集WPF上位机产线执行系统源码

C#开发MES管理系统源码工业生产线数据采集WPF上位机产线执行系统源码

该源码是实际生产线运行的实际项目，全套源码。适合开发者学习参考，有需要源码可以联系博主

阅读更多...

`ngx_otel_module` NGINX OpenTelemetry 分布式追踪实战

`ngx_otel_module` NGINX OpenTelemetry 分布式追踪实战

1. 模块简介 ngx_otel_module 为 NGINX（开源版 1.25.3，商业版 1.23.4）提供了 OpenTelemetry（OTel）分布式追踪支持，能够： 自动采集 HTTP 请求的生命周期 Span上下文传播：兼容 W3C t…

阅读更多...

Vue+TypeScript 枚举（Enum）的使用规范

Vue+TypeScript 枚举（Enum）的使用规范

在 TypeScript 中，枚举（Enum）的命名应遵循以下规范，这些规范结合了 TypeScript 官方建议和行业最佳实践： 枚举命名规范（TypeScript/Vue 项目） 基本命名规则： 使用 PascalCase&#…

阅读更多...

最新文章