数据挖掘 6.1 其他降维方法(不是很重要)

6.1 Other dimensionality reduction methods
6.1 其他降维方法

其他降维方法

  • 前言
    • 问题
    • 答案
  • 流形
  • 3 降维大纲
    • 3.1 线性方法
    • 3.2 非线性方法
      • 3.2.1 流形学习方法(Manifold Learning)
      • 3.2.2 概率方法(Probabilistic Approaches)
      • 3.2.3 拓扑数据分析(Topological Data Analysis)
    • 3.3 监督降维方法
  • 不相关与独立
  • 核化PCA(Kernelized PCA)
    • PCA 与核化PCA

前言

问题

降维与相关性的哲学问题
核心问题
为什么我们实际上能够降维?
不同事物之间的相关性从何而来?

不仅仅是 PCA
不只是 PCA,还有其他机器学习方法也依赖相关性。
如果数据完全是随机的、没有结构,那么所有相关性都不存在,我们就无法降维。

举例说明
即使两个样本在外观或训练测试上差异很大,看起来非常不同,但它们可能仍然遵循同样的潜在规则。

结论
降维方法依赖于数据中的潜在相关性。
问题在于:这种潜在相关性到底从何而来?
类似的问题:为什么一个人的身高和体重之间会有关联?

答案

数据中存在结构
在所谓“流形”的东西上,流形本身就是一种结构。
数据不是完全随机的,而是有某种潜在结构。

PCA 的作用
PCA 能发现这种结构,尽管它假设的是线性关系,但现实中并不总是线性的。
因此,除了 PCA,我们还需要学习其他方法来处理这种“流形结构”。

核心问题
这些相关性(数据结构、流形)从何而来?
为什么我们能通过数据去推断出维度?

答案
因为背后有物理约束。
数据的产生过程不是完全自由或随机的,而是受到物理规律、自然法则的限制。如果数据真的完全是随机的,就不会呈现出任何结构,也就谈不上降维或发现相关性。

流形

数据所在的结构称为流形。
在这里插入图片描述
如果我们有两个不同的变量,可以将其视为线性流形。但如果这个类型的数据结构或底层表面相当复杂。比如上图经典的瑞士卷数据集,就是一个三维度数据和变量。
数据肯定有一个结构,数据所在的结构称为它的流形。
我们感兴趣的是有关物理数据约束信息的生成过程,希望帮助我们更好的进行预测任务。所以这个流形可能并不总是线性,因为我们有不同类型的维数或流形。

3 降维大纲

在真实数据集中,许多变量可能是相关的。因此,数据集的有效维度可能比特征数目更低。所以,数据实际上存在于某个 流形(manifold) 上。

降维方法

3.1 线性方法

PCA(主成分分析)
LDA(线性判别分析)
CCA :Canonical Component Analysis 典型相关分析

3.2 非线性方法

3.2.1 流形学习方法(Manifold Learning)

目标:揭示隐藏在高维数据中的低维结构

Kernel PCA(核主成分分析)
MDS(多维尺度分析)
LLE(局部线性嵌入)
t-SNE

3.2.2 概率方法(Probabilistic Approaches)

ICA(独立成分分析)

3.2.3 拓扑数据分析(Topological Data Analysis)

目标:保持数据的拓扑结构

方法:UMAP

3.3 监督降维方法

结合监督学习的降维技术

不相关与独立

在这里插入图片描述
第二列相关性为0,但它们依然具有物理关系。

核化PCA(Kernelized PCA)

在下图的情况中,在上面应用PCA,不会能找到最大方差的任何方向,因为所有方向都差不多。
在这里插入图片描述
如何找到流形在哪里?
通过观察,我们知道,如果我们能够找到一个圆形曲线而不是直线,将会是流形。
我们可以讲数据投影到该圆弧上,实现缩小。
在这里插入图片描述

PCA 与核化PCA

区别在于把 协方差矩阵 CCC 换成了核函数 f(x)f(x)f(x)

PCA(主成分分析)
假设数据结构是 线性 的,通过协方差矩阵分解找到最大方差方向。
协方差矩阵:
C=1N∑i=1N(xi−xˉ)(xi−xˉ)TC = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})(x_i - \bar{x})^T C=N1i=1N(xixˉ)(xixˉ)T
优化目标:
max⁡wwTCwsubjectwTw=1\max_w \ w^T C w \\ subject \quad w^T w = 1 wmax wTCwsubjectwTw=1

核化PCA(Kernel PCA)
使用核函数将数据隐式映射到高维特征空间,在高维空间中做线性PCA,从而实现 非线性降维

核矩阵:
Kij=k(xi,xj)K_{ij} = k(x_i, x_j) Kij=k(xi,xj)

优化目标:
max⁡ααTKαsubjectαTα=1\max_\alpha \ \alpha^T K \alpha \\ subject \quad \alpha^T \alpha = 1 αmax αTKαsubjectαTα=1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/94462.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/94462.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity中的特殊文件夹

一.工程路径获取print(Application.dataPath);只用于游戏开发编辑器模式下,游戏发布后此路径就不存在了二.Resources 资源文件夹//路径获取: //一般不获取 //只能使用Resources相关API进行加载 //如果硬要获取 可以用工程路径拼接print(Application.dataPath "…

Seaborn数据可视化实战:Seaborn高级使用与性能优化教程

Seaborn最佳实践与技巧 学习目标 本课程将深入探讨Seaborn库的高级使用技巧,包括性能优化、常见问题解决方法等,旨在帮助学员掌握如何高效地使用Seaborn进行数据可视化,提升图表的美观度和信息传达效率。 相关知识点 Seaborn最佳实践与技巧 学…

分布式系统与单机系统的优劣势对比

近期有遇到一个本地部署的需求,他们希望用主备方案,这就涉及到了备用系统怎么收费的问题。我们是单机系统,其他友商是分布式系统,那20坐席的手拨需求到底是选单机系统好,还是选分布式系统好呢?了解了两者的…

深度学习:从手写数字识别案例认识pytorch框架

目录 一、PyTorch 核心优势与框架定位 二、实战基础:核心库与数据准备 1. 关键库导入与功能说明 2. MNIST 数据集加载与可视化 (1)数据集下载与封装 (2)数据集可视化(可选) 3. DataLoade…

二分|组合|旋转数组

lc1976dijk min_pathpq. min_wlcr187同lc1823.约瑟夫环class Solution { public:int iceBreakingGame(int num, int target) {int x0;for(int i2;i<num;i){x(xtarget)%i;} return x;} };lc2972计算数组中可移除的子数组数量先找最长递增前缀&#xff0c;再结合递增后缀…

【C语言16天强化训练】从基础入门到进阶:Day 10

&#x1f525;个人主页&#xff1a;艾莉丝努力练剑 ❄专栏传送门&#xff1a;《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题、洛谷刷题、C/C基础知识知识强化补充、C/C干货分享&学习过程记录 &#x1f349;学习方向&#xff1a;C/C方向学习者…

云计算与云原生技术探索

&#x1f31f; Hello&#xff0c;我是蒋星熠Jaxonic&#xff01; &#x1f308; 在浩瀚无垠的技术宇宙中&#xff0c;我是一名执着的星际旅人&#xff0c;用代码绘制探索的轨迹。 &#x1f680; 每一个算法都是我点燃的推进器&#xff0c;每一行代码都是我航行的星图。 &#x…

STM32之ADC详解

一、ADC概述 ADC&#xff08;模拟量转数字量转换器&#xff09;&#xff0c;在 STM32 开发中&#xff0c;利用 ADC 端口的电压数据&#xff0c;转换为对应的具体数字量数据内容。可通过 ADC 方式获取常用数据内容有&#xff1a; 光敏电阻、电池电量、油箱油量 ADC 转换…

深入理解计算机网络:从基础到应用的全面解析

标题&#xff1a;深入理解计算机网络&#xff1a;从基础到应用的全面解析 引言 计算机网络已经渗透到我们生活的方方面面。从家庭Wi-Fi到全球互联网&#xff0c;我们每天都在通过各种设备进行数据交换。本文将带领你走进计算机网络的世界&#xff0c;深入探讨网络的基础知识、常…

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型

上海交通大学第三届「AI for Bioengineering 暑期学校」于 2025 年 8 月 8—10 日正式开启。本次暑期学校汇聚了自全球 70 余所高校、 10 余所科研机构及 10 余家行业领军企业的 200 余位青年才俊、科研学者和产业代表&#xff0c;共同聚焦于人工智能&#xff08;AI&#xff09…

【大语言模型 15】因果掩码与注意力掩码实现:深度学习中的信息流控制艺术

【大语言模型 15】因果掩码与注意力掩码实现&#xff1a;深度学习中的信息流控制艺术 关键词&#xff1a;因果掩码、注意力掩码、下三角掩码、Padding掩码、序列建模、GPT解码器、BERT编码器、批量处理优化、自回归语言模型、信息流控制 摘要&#xff1a;在Transformer架构中&a…

大型电动化工程机械设备智能施工试验场的网络设计方案

随着工程机械设备逐步迈向智能化、电动化和无人化&#xff0c;传统施工试验场已经难以满足现代化施工设备的研发、测试和验证需求。为了适应这一趋势&#xff0c;建设一个基于高性能网络架构的大型智能施工试验场成为关键。本文将从网络架构、设备选型和功能实现等方面&#xf…

SPMI总线协议(一)

1、简单说明 系统电源管理接口( System Power Management Interface简称SPMI)是一种双线串行接口,用于连接片上系统(SoC)处理器系统的集成电源控制器(PC)与一个或多个电源管理集成电路(PMIC)电压调节系统。SPMI 使系统能够使用单个 SPMI 总线动态调整 SoC 内部电压域的…

数据存储的思考——从RocketMQ和Mysql的架构入手

数据存储是后台服务系统永远绕不开的知识 笔者希望能够从宏观的角度出发&#xff0c;思考数据存储系统的共性和设计方案&#xff0c;尝试从Mysql和RocketMQ的角度去思考谈谈系统存储架构的设计哲学 前置的知识 什么是RocketMQ、什么是Mysql&#xff0c;他们对于后端系统的主用…

MySQL 面试题系列(二)

目录1: SQL 中常见的 JOIN 类型有哪些&#xff1f;请分别说明其连接逻辑和适用场景。2: UNION 和 UNION ALL 有什么区别&#xff1f;它们各自的适用场景是什么&#xff1f;3: 什么是视图 (View)&#xff1f;它的作用和优缺点是什么&#xff1f;4: 什么是索引 (Index)&#xff1…

PostgreSQL诊断系列(2/6):锁问题排查全攻略——揪出“阻塞元凶”

&#x1f517; 接上一篇《PostgreSQL全方位体检指南》&#xff0c;今天我们深入数据库的“神经系统”——锁机制&#xff0c;解决最令人头疼的“卡顿”问题。 你是否经历过&#xff1a; 某个SQL执行着就不动了&#xff1f;应用界面卡在“加载中”&#xff1f;UPDATE 语句迟迟不…

crc16是什么算法

核心概念​CRC16​ 是一种循环冗余校验算法&#xff0c;属于哈希函数的一种。它的核心目的是检测数据的错误&#xff0c;通常用于数字网络和存储设备中&#xff0c;来验证数据在传输或存储后是否依然完整、无误。你可以把它想象成一个数据的“指纹”或“摘要”。发送方计算出一…

Day8--HOT100--160. 相交链表,206. 反转链表,234. 回文链表,876. 链表的中间结点

Day8–HOT100–160. 相交链表&#xff0c;206. 反转链表&#xff0c;234. 回文链表&#xff0c;876. 链表的中间结点 每日刷题系列。今天的题目是力扣HOT100题单。 链表题目。 160. 相交链表 思路【我】&#xff1a; 1&#xff0c;计算链表长度 2&#xff0c;令A为较短链&am…

Rust面试题及详细答案120道(58-65)-- 集合类型

《前后端面试题》专栏集合了前后端各个知识模块的面试题&#xff0c;包括html&#xff0c;javascript&#xff0c;css&#xff0c;vue&#xff0c;react&#xff0c;java&#xff0c;Openlayers&#xff0c;leaflet&#xff0c;cesium&#xff0c;mapboxGL&#xff0c;threejs&…

Horse3D游戏引擎研发笔记(八):在QtOpenGL环境下,按需加载彩虹四边形的顶点属性 (Unity、Unreal Engine、Three.js与Godot)

在上一篇博客中&#xff0c;我们探讨了如何在QtOpenGL环境下使用改进的Uniform变量管理方式绘制多彩四边形。本文将延续这一主题&#xff0c;深入探讨如何在QtOpenGL环境下按需加载彩虹四边形的顶点属性。这一功能是Horse3D引擎渲染系统的重要组成部分&#xff0c;旨在实现灵活…