Scikit-learn Python机器学习 - 特征预处理 - 标准化 (Standardization):StandardScaler

锋哥原创的Scikit-learn Python机器学习视频教程:

2026版 Scikit-learn Python机器学习 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili

课程介绍


本课程主要讲解基于Scikit-learn的Python机器学习知识,包括机器学习概述,特征工程(数据集,特征抽取,特征预处理,特征降维等),分类算法(K-临近算法,朴素贝叶斯算法,决策树等),回归与聚类算法(线性回归,欠拟合,逻辑回归与二分类,K-means算法)等。

Scikit-learn Python机器学习 - 特征预处理 - 标准化 (Standardization):StandardScaler

归一化是基于最大值和最小值的,因此异常值(outliers)会对归一化的结果产生较大影响。极端情况下,一个异常值可能会将整个特征的范围压缩到很小的范围,从而导致其他正常数据的表示能力下降。

所以我们引入能够尽可能降低异常值对数据处理结果影响的标准化计算操作。将特征缩放为均值为 0,方差为 1 的标准正态分布。

标准化(Standardization)公式是:

公式各部分详解

工作原理

标准化将原始数据转换为均值为0、标准差为1的标准正态分布。具体来说:

标准化的意义

  1. 统一量纲:将不同量纲、不同范围的特征转换到同一尺度上

  2. 中心化:转换后分布的中心在0点

  3. 标准化尺度

    :转换后的值表示"偏离平均值多少个标准差"

    • Z = 0:表示该数据点恰好等于均值

    • Z = 1:表示该数据点比均值高出一个标准差

    • Z = -2:表示该数据点比均值低两个标准差

在Scikit-learn中,使用StandardScaler进行标准化操作。

初始化 StandardScaler 对象时,有以下参数:

  • with_mean: boolean, 默认为 True

    • 作用:是否对数据居中(减去均值)。如果设置为 False,则不会减去均值,计算过程变为 x / σ。对于稀疏矩阵,设置 with_mean=False 是推荐且默认的,因为居中会破坏矩阵的稀疏性。

  • with_std: boolean, 默认为 True

    • 作用:是否将数据缩放到单位方差(除以标准差)。如果设置为 False,则计算过程变为 x - μ,只进行居中处理。

在调用 fitfit_transform 之后,StandardScaler 对象会获得以下属性:

  • mean_:每个特征(列)在训练数据中的均值(μ)。

  • var_:每个特征(列)在训练数据中的方差。

  • scale_:每个特征(列)在训练数据中的标准差(σ)。这是实际应用于 transform 的缩放比例。

  • n_samples_seen_:处理器在每个特征中处理的样本数(用于在线计算均值/方差)。

  • n_features_in_:训练时使用的特征数量。

  • feature_names_in_:训练时使用的特征名称(如果输入的是 Pandas DataFrame)。

我们看一个示例:

import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler# 创建示例数据,包含不同类型的问题
data = {'age': [25, 30, np.nan, 45, 60, 30, 15],  # 数值,含缺失值'salary': [50000, 54000, 60000, np.nan, 100000, 40000, 20000],  # 数值,尺度大,含缺失值'country': ['USA', 'UK', 'China', 'USA', 'India', 'China', 'UK'],  # 分类型'gender': ['M', 'F', 'F', 'M', 'M', 'F', 'F']  # 分类型
}df = pd.DataFrame(data)
print("原始数据:")
print(df)# 策略通常为 mean(均值), median(中位数), most_frequent(众数), constant(固定值)
imputer = SimpleImputer(strategy='mean')# 我们只对数值列进行填充
numeric_features = ['age', 'salary']
df_numeric = df[numeric_features]# fit 计算用于填充的值(这里是均值),transform 应用填充
imputer.fit(df_numeric)
df[numeric_features] = imputer.transform(df_numeric)print("\n处理缺失值后:")
print(df)standard_scaler = StandardScaler()df_numeric = df[['age', 'salary']]
# 根据数据训练生成模型
standard_scaler.fit(df_numeric)
# 根据模型训练数据
df_standardized = standard_scaler.transform(df_numeric)print("\n标准化后的数值特征:")
print(df_standardized)
print(f"标准化后的方差:{df_standardized.std()}")

运行输出:

[[-0.68032458 -0.17837652][-0.30923844  0.        ][ 0.          0.26756478][ 0.80401995  0.        ][ 1.91727835  2.05132995][-0.30923844 -0.62431781][-1.42249684 -1.51620039]]

数学知识,什么是标准正太分布:

正态分布的概率密度函数显示为典型的钟形曲线,这一形状类似于寺庙中的大钟,因此也常被称为钟形曲线。作为一种连续分布,正态分布拥有完备的概率密度函数、累积分布函数、矩生成函数和特征函数等表达形式,并且具备明确的期望(即均值)、方差、偏度和峰度等数值特征。

(我们可以参考动画学习 正太分布 转载自抖音成其老师)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95575.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95575.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows下wsl2 ubuntu开发配置

配置环境变量# 设置方式 命令/文件 生效范围 适用场景 # 临时 export FORCE_UNSAFE_CONFIGURE1 当前终端 临时编译软件 # 用户级永久 ~/.bashrc或~/.profile 当前用户 长期使用(单用户) # 系统级永久 /etc/environment或/…

网络编程 05:UDP 连接,UDP 与 TCP 的区别,实现 UDP 消息发送和接收,通过 URL 下载资源

一、概述 记录时间 [2025-09-02] 前置文章: 网络编程 01:计算机网络概述,网络的作用,网络通信的要素,以及网络通信协议与分层模型 网络编程 02:IP 地址,IP 地址的作用、分类,通过 …

告别线缆束缚!AirDroid Cast 多端投屏,让分享更自由

AirDroid Cast 是一款功能强大的跨平台投屏应用,能够轻松实现手机、电脑之间以及手机之间的屏幕共享与控制。无论是工作演示、在线教学还是游戏直播,AirDroid Cast 都能提供流畅稳定的投屏体验。 1. 下载与安装 您可以通过以下链接下载 AirDroid Cast&…

从零开始学大模型之大模型训练流程实践

大模型训练流程实践 本文较长&#xff0c;建议点赞收藏&#xff0c;以免遗失。更多AI大模型开发 学习视频/籽料/面试题 都在这>>Github<< >>Gitee<< 6.1 模型预训练 在上一章&#xff0c;我们逐步拆解了 LLM 的模型结构及训练过程&#xff0c;从零手…

一文从零部署vLLM+qwen0.5b(mac本地版,不可以实操GPU单元)

第一步&#xff1a;下载anaconda for mac https://zhuanlan.zhihu.com/p/350828057 知乎保姆级教程 https://www.anaconda.com/docs/getting-started/anaconda/install#macos-linux-installation 下载地址 第二步&#xff1a;部署vllm的虚拟环境 https://www.53ai.com/news/Op…

Go语言Range用法全解析

引言Go 语言中的 range 关键字是集合遍历的核心语法结构&#xff0c;它提供了一种高效且类型安全的方式来迭代各种数据结构。range 的设计完美体现了 Go 语言的工程哲学 - 通过最小化的语法提供最大化的功能。标准库中的许多关键组件&#xff08;如 sync.Map、bufio.Scanner 等…

mysql进阶语法(视图)

1、视图概念 是从一个或多个表中导出来的表&#xff0c;它是一种虚拟存在的表&#xff0c;表的结构和数据都依赖于基本表 应用场景&#xff1a; 多个地方用到同样的查询结果该查询结果用到复杂的select语句 视图优点&#xff1a; 简化查询语句&#xff1a;简化用户的查询操作&a…

编程范式:提升抽象能力的思维工具

这是一个编程中的核心概念&#xff0c;它代表了编写程序的一套基本风格、方法论和哲学。学习不同的编程范式&#xff0c;就像学习用不同的工具和思维方式来解决问题&#xff0c;能极大地提升你作为程序员的抽象能力和解决问题的能力。一、什么是编程范式&#xff1f;编程范式 是…

阿里云-基于通义灵码实现高效 AI 编码 | 1 | 在 Visual Studio Code 中安装和使用灵码

文章目录一、在 Visual Studio Code 中安装和使用灵码1.1 准备工作1.2 在 Visual Studio Code 安装通义灵码1.3 登录阿里云账号免费个人运维知识库&#xff0c;欢迎您的订阅&#xff1a;literator_ray.flowus.cn 一、在 Visual Studio Code 中安装和使用灵码 本安装步骤适用于…

WordPress搭建个人网站(Linux版)

WordPress搭建个人网站&#xff0c;使用Linux系统。我需要详细说明整个过程&#xff0c;包括环境准备、安装步骤、配置优化等。首先&#xff0c;用户可能对Linux不太熟悉&#xff0c;所以需要从基础开始&#xff0c;比如选择合适的Linux发行版&#xff0c;如Ubuntu或CentOS。然…

ES模块(ESM)、CommonJS(CJS)和UMD三种格式

vite的build.lib配置生成了三种格式&#xff1a;ES模块&#xff08;ESM&#xff09;、CommonJS&#xff08;CJS&#xff09;和UMD。它们的主要区别和适用场景如下&#xff1a; ES模块&#xff08;.mjs&#xff09;&#xff1a; 使用现代JavaScript的模块语法&#xff08;import…

2026届IC秋招联芸科技IC面经(完整面试题)

联芸科技2026届数字IC后端面经数字后端培训实战项目六大典型后端实现案例 首先是自我介绍。这个每家公司必备环节。这部分内容需要自己提前准备&#xff0c;避免太过紧张影响发挥。 数字IC后端经典笔试题IC秋招笔试题之时序报告解析 1&#xff09;拿到netlist和sdc后你会如何…

一维水动力模型有限体积法(四):高级实现——平衡源项、边界条件与算法总成

引言 成功实现一个稳定且精确的水动力学模型&#xff0c;关键在于妥善处理源项和边界条件。这两个环节是数值格式产生非物理振荡和误差的主要来源。本章将详细介绍“守恒-平衡”&#xff08;well-balanced&#xff09;格式的核心技术&#xff0c;以及通过“虚拟单元”实现各类物…

VAE(变分自动编码器)技术解析

VAE&#xff08;Variational Auto-Encoder, 变分自动编码器&#xff09;1、VAE的结构为什么使用重参数化&#xff1f;2、VAE的代码实现1.重构损失&#xff08;Reconstruction Loss&#xff09;2.KL散度&#xff08;Kullback-Leibler Divergence Loss&#xff09;1&#xff09;E…

嵌入式单片机---串口通信及相关通信技术

一、通信方式分类&#xff08;一&#xff09;按数据传输线路数量划分&#xff1a;串行通信与并行通信类别定义特点并行通信多个比特同时通过并行线进行传输优点&#xff1a;传输速率较高&#xff1b;缺点&#xff1a;占用大量芯片资源串行通信将数据拆分成一个个比特&#xff0…

Elasticsearch面试精讲 Day 8:聚合分析与统计查询

【Elasticsearch面试精讲 Day 8】聚合分析与统计查询 文章标签&#xff1a;Elasticsearch, 聚合查询, 统计分析, Aggregations, 面试, 大数据, 搜索引擎, 后端开发, 数据分析 文章简述&#xff1a; 本文是“Elasticsearch面试精讲”系列的第8天&#xff0c;聚焦聚合分析与统计…

HTML HTML基础(2)

1.开发者文档W3C官网&#xff1a; www.w3c.org W3School&#xff1a; www.w3school.com.cn MDN&#xff1a; developer.mozilla.org —— 推荐。2.排版标签标签名标签含义单 / 双 标签h1 ~ h6标题双p段落双div没有任何含义&#xff0c;用于整体布局双(1). h1 最好写一个&#x…

spring.profiles.active配置的作用

1. spring.profiles (或文件名中的 ?)&#xff1a;定义配置的名称这是声明一段配置属于哪个 Profile。在同一个 application.yml 中&#xff1a;使用 spring.profiles 键来为一个配置段打上标签。yamlspring:profiles: dev # 【定义】这个配置段的名称是‘dev’ server:port: …

【开题答辩全过程】以 高校教室管理系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人&#xff0c;语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

Aurobay EDI 需求分析:OFTP2 与 EDIFACT 驱动的汽车供应链数字化

Aurobay 是由吉利汽车集团与沃尔沃汽车集团合资成立的动力系统公司&#xff0c;总部位于瑞典哥德堡。其供应链系统广泛采用 EDI&#xff08;电子数据交换&#xff09;技术进行标准化通信与业务协作。通过严谨的 EDI 传输规范&#xff0c;其与供应商之间构建了高效、安全的数据交…