数学建模期末速成 主成分分析的基本步骤

设有 n n n个研究对象, m m m个指标变量 x 1 , x 2 , ⋯ , x m x_1,x_2,\cdots,x_m x1,x2,,xm,第 i i i个对象关于第 j j j个指标取值为 a i j a_{ij} aij,构造数据矩阵 A = ( a i j ) n × m A=\left(\begin{array}{c}a_{ij}\end{array}\right)_{n\times m} A=(aij)n×m

(1)对原来的 m m m个指标进行标准化,得到标准化的指标变量
y j = x j − μ j s j , j = 1 , 2 , ⋯ , m , 式中 : μ j = 1 n ∑ i = 1 n a i j ; s i = 1 n − 1 ∑ i = 1 n ( a i j − μ j ) 2 y_{j}=\frac{x_{j}-\mu_{j}}{s_{j}},\quad j=1,2,\cdots,m\:,\\\text{式中}:\mu_{j}=\frac{1}{n}\sum_{i=1}^{n}a_{ij};s_{i}\:=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(a_{ij}-\mu_{j}\right)^{2}} yj=sjxjμj,j=1,2,,m,式中:μj=n1i=1naij;si=n11i=1n(aijμj)2
对应地,得到标准化的数据矩阵
B = ( b i j ) n × m , 其中  b i j = a i j − μ j s j , i = 1 , 2 , ⋯ , n , j = 1 , 2 , ⋯ , m B=(b_{ij})_{n\times m},\text{其中 }b_{ij}=\frac{a_{ij}-\mu_{j}}{s_{j}},i=1,2,\cdots,n,j=1\:,\\2,\cdots,m B=(bij)n×m,其中 bij=sjaijμj,i=1,2,,n,j=1,2,,m
(2)根据标准化的数据矩阵 B B B求出相关系数矩阵 R = ( r i j ) m × n R=(r_{ij})_{m\times n} R=(rij)m×n其中
b i j = a i j − μ j s j , i = 1 , 2 , ⋯ , n , j = 1 , 2 , ⋯ , m b_{ij}=\frac{a_{ij}-\mu_{j}}{s_{j}},i=1\:,2\:,\cdots,n\:,j=1\:,2\:,\cdots,m bij=sjaijμj,i=1,2,,n,j=1,2,,m
(3) 计算相关系数矩阵 R R R 的特征值 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ m \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_m λ1λ2λm,及对应的标准正交化特征向量 u 1 , u 2 , ⋯ , u m u_1, u_2, \cdots, u_m u1,u2,,um,其中 u j = [ u 1 j , u 2 j , ⋯ , u m j ] T u_j = [u_{1j}, u_{2j}, \cdots, u_{mj}]^T uj=[u1j,u2j,,umj]T,由特征向量组成 p p p 个新的指标变量

{ F 1 = u 11 y 1 + u 21 y 2 + ⋯ + u m 1 y m , F 2 = u 12 y 1 + u 22 y 2 + ⋯ + u m 2 y m , ⋮ F m = u 1 m y 1 + u 2 m y 2 + ⋯ + u m m y m , \begin{cases} F_1 = u_{11} y_1 + u_{21} y_2 + \cdots + u_{m1} y_m, \\ F_2 = u_{12} y_1 + u_{22} y_2 + \cdots + u_{m2} y_m, \\ \vdots \\ F_m = u_{1m} y_1 + u_{2m} y_2 + \cdots + u_{mm} y_m, \end{cases} F1=u11y1+u21y2++um1ym,F2=u12y1+u22y2++um2ym,Fm=u1my1+u2my2++ummym,

式中: F 1 F_1 F1 为第 1 主成分; F 2 F_2 F2 为第 2 主成分; ⋯ \cdots F m F_m Fm 为第 m m m 主成分。

(4) 计算主成分贡献率及累积贡献率,主成分 F j F_j Fj 的贡献率为

w j = λ j ∑ k = 1 m λ k , j = 1 , 2 , ⋯ , m , w_j = \frac{\lambda_j}{\sum_{k=1}^m \lambda_k}, \quad j = 1, 2, \cdots, m, wj=k=1mλkλj,j=1,2,,m,

i i i 个主成分的累积贡献率为

∑ k = 1 i λ k ∑ k = 1 m λ k \frac{\sum_{k=1}^i \lambda_k}{\sum_{k=1}^m \lambda_k} k=1mλkk=1iλk

一般取累积贡献率达 85%以上的特征值 λ 1 , λ 2 , ⋯ , λ k \lambda_1, \lambda_2, \cdots, \lambda_k λ1,λ2,,λk 所对应的第 1, 第 2, ⋯ \cdots ,第 k ( k ≤ p ) k (k \leq p) k(kp) 主成分

(5) 最后利用得到的主成分 F 1 , F 2 , ⋯ , F k F_1, F_2, \cdots, F_k F1,F2,,Fk 分析问题,或者继续进行评价、回归、聚类等其他建模

[!warning] 注意
主成分分析的结果受量纲的影响,由于各变量的单位可能不同,结果可能不同这是主成分分析的最大问题。因此,在实际问题中,需要先对各变量进行无量纲化处理,然后用协方差矩阵相关系数矩阵进行分析。

补充

无量纲化处理

在数学建模中,无量纲化处理(Non-dimensionalization)是通过引入特征尺度将包含单位的物理量转化为无量纲量的过程。其核心目的是简化模型、减少参数数量、揭示变量间的本质关系,并提高数值计算的稳定性。

如何做到无量纲化?

  1. 选择特征尺度
    针对每个变量(如时间、长度、速度等),选择一个具有物理意义的参考值(如初始值、平衡状态值、特征长度等)。例如:

    • 时间尺度:若系统周期为 ( T ),可将时间 ( t ) 转化为 ( \tilde{t} = t/T )。
    • 长度尺度:若物体长度为 ( L ),可将坐标 ( x ) 转化为 ( \tilde{x} = x/L )。
  2. 变量替换
    将原变量替换为无量纲形式,例如: v ~ = v v c ( v c 为特征速度) \tilde{v} = \frac{v}{v_c} \quad \text{(\( v_c \) 为特征速度)} v~=vcvvc 为特征速度)3. 方程转化
    将原方程中的变量和参数全部替换为无量纲量,整理后得到无量纲方程。
    无量纲化的意义

  3. 简化模型结构

  4. 揭示尺度规律

  5. 数值计算稳定性

  6. 普适性分析


标准化

由于样本数据矩阵由多个指标组成,不同指标一般有不同的量纲,为消除量纲的影响,通常需要进行数据变换处理。常用的数据变换方法有:

  • 中心化处理:先求出每个变量的样本平均值,再从原始数据中减去该变量的均值
    b i j = a i j − μ j , i = 1 , ⋯ , n ; j = 1 , ⋯ , p , 式中 : μ j = ∑ i = 1 n a i j n b_{ij}=a_{ij}-\mu_{j}\:, \quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_j=\frac{\sum_{i=1}^na_{ij}}n bij=aijμj,i=1,,n;j=1,,p,式中:μj=ni=1naij
  • 规格化处理:每一个变量的原始数据减去该变量中的最小值,再除以极差
    b i j = a i j − min ⁡ 1 ≤ i ≤ n ( a i j ) max ⁡ 1 ≤ i ≤ n ( a i j ) − min ⁡ 1 ≤ i ≤ n ( a i j ) , i = 1 , ⋯ , n ; j = 1 , ⋯ , p . b_{ij}=\frac{a_{ij}-\min_{1\leq i\leq n}\left(\:a_{ij}\:\right)}{\max_{1\leq i\leq n}\left(\:a_{ij}\:\right)-\min_{1\leq i\leq n}\left(\:a_{ij}\right)},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p. bij=max1in(aij)min1in(aij)aijmin1in(aij),i=1,,n;j=1,,p.
  • 标准化变换:先对每个变量进行中心化变换,然后用该变量的标准差进行标准化
    b i j = a i j − μ j s j , i = 1 , ⋯ , n ; j = 1 , ⋯ , p , 式中 : μ j = ∑ i = 1 n a i j n ; s j = 1 n − 1 ∑ i = 1 n ( a i j − μ j ) 2 b_{ij}=\frac{a_{ij}-\mu_{j}}{s_{j}},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_{j}=\frac{\sum_{i=1}^{n}a_{ij}}{n};s_{j}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(a_{ij}-\mu_{j}\right)^{2}} bij=sjaijμj,i=1,,n;j=1,,p,式中:μj=ni=1naij;sj=n11i=1n(aijμj)2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/84145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

博图 SCL 编程技巧:灵活实现上升沿与下降沿检测案例分享(上)

博图 SCL 编程技巧:灵活实现上升沿与下降沿检测案例分享 在 PLC 编程中,检测信号从 0 变为 1 (上升沿) 或从 1 变为 0 (下降沿) 是最基础也是最关键的操作之一。它常用于启动单次动作、计数、状态切换等场景。在西门子 TIA Portal 环境中,虽…

深度学习入门Day3--鱼书学习(2)

这俩天刚忙完答辩的事情,终于有时间学习了 一、3层神经网络实现 1.本节中的符号使用说明。 w 12 ( 1 ) w_{12}^{(1)} w12(1)​表示前一层的第2个神经元 x 2 x_{2} x2​到后一层的第一个神经元 a 1 a_{1} a1​的权重。权重右下角按照“后一层的索引号、前一层的索引…

服务器 | Centos 9 系统中,如何部署SpringBoot后端项目?

系列文章目录 虚拟机 | Ubuntu 安装流程以及界面太小问题解决 虚拟机 | Ubuntu图形化系统: open-vm-tools安装失败以及实现文件拖放 虚拟机 | Ubuntu操作系统:su和sudo理解及如何处理忘记root密码 文章目录 系列文章目录前言一、环境介绍二、 使用syst…

CNN核心机制深度解析:卷积池化原理 PyTorch实现经典网络

本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。 本文系统讲解CNN核心原理、经典网络架构和图像分类实战,涵盖卷积层、池化层、LeNet/AlexNet/VGG/ResNet设计思想,并提供CIFAR-…

6个月Python学习计划 Day 17 - 继承、多态与魔术方法

第三周 Day 4 🎯 今日目标 理解类的继承和方法重写掌握多态思想及其实际应用了解并使用常见的魔术方法(如 str、len 等) 🧬 类的继承(Inheritance) Python 支持单继承与多继承,常用语法如下&…

抖音怎么下载视频

抖音作为一款短视频社交平台,凭借其独特的短视频形式和丰富的内容,吸引了大量用户。有些用户在欣赏完抖音视频后,想要将其保存下来,以便日后观看。如何在抖音下载视频呢?本文将为您详细介绍抖音视频下载的技巧和方法。…

使用MinIO搭建自己的分布式文件存储

目录 引言: 一.什么是 MinIO ? 二.MinIO 的安装与部署: 三.Spring Cloud 集成 MinIO: 1.前提准备: (1)安装依赖: (2)配置MinIO连接: &…

uni-app 如何实现选择和上传非图像、视频文件?

在 uni-app 中实现选择和上传非图像、视频文件,可根据不同端(App、H5、小程序)的特点,采用以下方法: 一、通用思路(多端适配优先推荐) 借助 uni.chooseFile 选择文件,再用 uni.upl…

正点原子[第三期]Arm(iMX6U)Linux移植学习笔记-12.1 Linux内核启动流程简介

前言: 本文是根据哔哩哔哩网站上“Arm(iMX6U)Linux系统移植和根文件系统构键篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。 引用: …

UDP与TCP通信协议技术解析

文章目录 协议基础原理TCP:可靠的面向连接通信UDP:高效的无连接通信 性能特征分析TCP性能表现UDP性能表现 应用场景分析TCP适用场景UDP适用场景 技术实现考量错误处理策略网络资源利用 选择决策框架可靠性需求评估性能要求分析 混合方案设计协议组合策略…

mysql 页的理解和实际分析

目录 页(Page)是 Innodb 存储引擎用于管理数据的最小磁盘单位B树的一般高度记录在页中的存储 innodb ibd文件innodb 页类型分析ibd文件查看数据表的行格式查看ibd文件 分析 ibd的第4个页:B-tree Node类型先分析File Header(38字节-描述页信息…

【优选算法】C++滑动窗口

1、长度最小的子数组 思路&#xff1a; class Solution { public:int minSubArrayLen(int target, vector<int>& nums) {// 滑动窗口// 1.left0,right0// 2.进窗口( nums[right])// 3.判断// 出窗口// (4.更新结果)// 总和大于等于 target 的长度最小的 子数组…

ffmpeg(四):滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具&#xff0c;可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下&#xff1a; ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜&#xff1a; ffmpeg…

408考研逐题详解:2009年第33题

2009年第33题 在 OSI 参考模型中&#xff0c;自下而上第一个提供端到端服务的层次是&#xff08; &#xff09; A. 数据链路层 \qquad B. 传输层 \qquad C. 会话层 \qquad D.应用层 解析 本题主要考查 OSI 参考模型各层的核心功能、端到端服务的定义。 OSI 参考模型&am…

CentOS 7.9安装Nginx1.24.0时报 checking for LuaJIT 2.x ... not found

Nginx1.24编译时&#xff0c;报LuaJIT2.x错误&#xff0c; configuring additional modules adding module in /www/server/nginx/src/ngx_devel_kit ngx_devel_kit was configured adding module in /www/server/nginx/src/lua_nginx_module checking for LuaJIT 2.x ... not…

自制喜悦字贴

一、想法 据说&#xff0c;把“喜悦”两个字挂在家里显眼的地方&#xff0c;时常看到&#xff0c;就能心情愉悦。刚好最近在学习前端flex布局&#xff0c;用代码实现&#xff0c;导出图片&#xff0c;打印出来&#xff0c;帖在家里&#xff0c;非常nice。现在分享给大家。 二…

每日八股文6.3

每日八股-6.3 Mysql1.COUNT 作用于主键列和非主键列时&#xff0c;结果会有不同吗&#xff1f;2.MySQL 中的内连接&#xff08;INNER JOIN&#xff09;和外连接&#xff08;OUTER JOIN&#xff09;有什么主要的区别&#xff1f;3.能详细描述一下 MySQL 执行一条查询 SQL 语句的…

量化面试绿皮书:6. 烧绳子计时

文中内容仅限技术学习与代码实践参考&#xff0c;市场存在不确定性&#xff0c;技术分析需谨慎验证&#xff0c;不构成任何投资建议。 6. 烧绳子计时 你有两根绳子&#xff0c;每根绳子燃烧需要1小时。但是任何一根绳子在不同点都有不同的密度&#xff0c;所以不能保证绳子内不…

2-深度学习挖短线股1

选短线个股的流程 &#xff08;1&#xff09;数据预处理&#xff0c;根据短线个股筛选标准&#xff0c;给个股日线数据打标。 &#xff08;2&#xff09;模型训练&#xff0c;针对每只股票&#xff0c;训练得到分类模型。 &#xff08;3&#xff09;结果预测&#xff0c;根据训…

【数据分析】探索婴儿年龄变化对微生物群落(呼吸道病毒和细菌病原体)结构的影响

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍1. 混合效应逻辑回归模型2. 随机森林模型3. Maaslin2 分析加载R包数据下载导入数据数据预处理混合效应逻辑回归模型分析微生物群落结构随年龄的变化随机森林模型预测病原体定植Maas…