AI模型本质与学习范式解析

从统计学习(也就是数学)的角度来分析深度学习模型的本质。

频率派与贝叶斯派对模型本质理解的差异:前者认为学习参数估计,后者认为学习后验分布。不过这个问题下概率分布的视角更本质。

三个核心部分:任务类型分类(推断与生成)、模型本质的概率解释、不同学习范式的数学统一性。

总结模型本质时,可以考虑引入变分推断的观点——所有学习都是在近似数据的真实概率分布。不同范式区别在于:监督学习近似条件分布,无监督学习近似联合分布,而自监督通过代理任务逼近联合分布的结构特性。

一、 AI模型能够执行的主要任务类型

  1. 推断 (Inference - 更常指预测/Prediction):
    • 定义: 给定输入数据 X,模型预测或估计与之相关的输出值 YY 的某些属性(如概率、置信度)。
    • 核心: 学习 P(Y | X) 或其点估计(如均值、众数)。目标是找到一个函数 f: X -> Y,使得预测 Ŷ = f(X) 尽可能接近真实的 Y
    • 子类型:
      • 分类 (Classification): Y 是离散类别标签 (e.g., 猫/狗, 垃圾邮件/正常邮件)。
      • 回归 (Regression): Y 是连续数值 (e.g., 房价预测, 温度预测)。
      • 结构化预测 (Structured Prediction): Y 具有复杂的结构 (e.g., 序列标注、句法树预测、图像分割图)。
      • 概率推断 (Probabilistic Inference): 输出 Y 的概率分布 P(Y | X) (e.g., 贝叶斯神经网络输出均值方差, 分类模型输出各类别概率)。
  2. 生成 (Generation):
    • 定义: 模型学习数据 X 本身(或隐含变量 Z)的分布 P(X)P(X, Z),并能够从中采样,创造出与训练数据相似的新样本 X_new
    • 核心: 学习联合分布 P(X)P(X, Z),以及采样机制。
    • 子类型:
      • 无条件生成: 直接生成新样本 X_new ~ P(X) (e.g., GAN生成新人脸, VAE生成新数字图片)。
      • 条件生成: 给定特定条件 C (可以是类别标签、文本描述、另一模态数据),生成符合该条件的样本 X_new ~ P(X | C) (e.g., 文本生成图像, 图像修复, 机器翻译, 语音合成)。

重要关联与区别:

  • 生成模型通常也能做推断: 一旦学习到了 P(X)P(X, Z),理论上可以通过贝叶斯定理计算 P(Z | X)P(Y | X) (如果 YX 的一部分或与 Z 相关)。例如,VAE可以用于异常检测(低似然度样本),语言模型可以用于文本分类(计算文本属于某类的概率)。
  • 推断模型不总能做生成: 纯粹的判别模型(如逻辑回归、SVM、标准CNN分类器)只建模 P(Y | X),没有学习 P(X),因此无法生成新的 X
  • 推断是生成的核心组成部分: 许多强大的生成模型(如扩散模型、自回归模型)在生成过程中反复进行条件预测/推断。

二、 模型的本质:概率分布的学习

从统计学习的角度看,机器学习模型的核心本质确实是学习一个概率分布。

  • 核心目标: 模型的目标是近似数据的真实但未知的生成分布 P_data
  • 学习过程: 通过优化算法(如梯度下降)和损失函数(如负对数似然、交叉熵),利用训练数据 D = {x_i, y_i}D = {x_i} 来调整模型参数 θ,使得模型定义的分布 P_model(X, Y; θ)P_model(X; θ) 尽可能接近 P_data(X, Y)P_data(X)
  • 参数化: 模型 M 提供了一个参数化的函数族 {P_model(·; θ) | θ ∈ Θ}。学习就是在这个函数族中找到最优参数 θ*,使得 P_model(·; θ*)P_data(·) 的最佳近似。

从学习范式看概率分布的本质

  1. 监督学习 (Supervised Learning):
    • 目标: 学习从输入 X 到输出 Y 的映射关系。
    • 概率本质: 学习条件概率分布 P(Y | X)
    • 数据: 训练数据是标注好的样本对 (X, Y)。数据隐含地假设是从联合分布 P_data(X, Y) 中独立同分布采样得到的。
    • 模型作用: 模型 M 参数化一个条件分布 P_model(Y | X; θ)
    • 损失函数: 通常基于条件对数似然的负值或与之相关的度量(如交叉熵用于分类,均方误差可看作高斯分布下极大似然的特例)。最小化损失等价于最大化训练数据在模型分布下的条件似然 Π_i P_model(y_i | x_i; θ)
    • 例子: 分类器(学习 P(类别 | 图像)),回归模型(学习 P(连续值 | 特征),常假设为高斯分布),序列到序列模型(学习 P(目标序列 | 源序列))。
  2. 无监督学习 (Unsupervised Learning):
    • 目标: 发现数据 X 本身的内在结构、模式或表示,没有显式的输出标签 Y
    • 概率本质: 学习数据 X 的联合概率分布 P(X) 或其隐含表示 P(X, Z)Z 是隐变量)。
    • 数据: 只有未标注的数据 {x_i}。假设数据是从 P_data(X) 中独立同分布采样得到的。
    • 模型作用: 模型 M 参数化一个联合分布 P_model(X; θ)P_model(X, Z; θ)
    • 损失函数: 通常基于数据对数似然的负值或相关目标(如重构误差 + 正则项)。最小化损失等价于最大化训练数据在模型分布下的似然 Π_i P_model(x_i; θ)
    • 例子:
      • 密度估计: 直接建模 P(X) (e.g., 自回归模型如PixelCNN, 流模型如RealNVP/Glow)。
      • 聚类: 可看作学习 P(X, Z),其中 Z 是聚类标签(离散隐变量),目标是最大化 P(X) = Σ_z P(X, Z)
      • 降维 (PCA, t-SNE): 可看作学习数据的低维流形结构(隐空间 Z),其概率解释通常与高斯分布或t分布相关(t-SNE)。概率PCA (PPCA) 显式建模 P(X | Z)P(Z)
      • 生成模型 (VAE, GAN, 扩散模型): 核心目标是学习 P(X) 以便生成新样本。VAE显式建模 P(X, Z) 并学习变分下界;GAN通过对抗训练隐式学习一个能从 P_data(X) 采样的生成器;扩散模型学习一个逐步去噪的过程,其目标可形式化为变分推断或得分匹配。
  3. 自监督学习 (Self-Supervised Learning):
    • 目标: 利用数据本身固有的结构或信息自动构造“伪标签”或“代理任务”,从而学习数据的有用表示,通常为下游任务(监督或无监督)做准备。
    • 概率本质: 巧妙地构造条件分布 P(Y_pseudo | X) 来学习联合分布 P(X) 或其内部表示。 本质上是一种利用数据自动生成监督信号来近似无监督学习目标 P(X) 的策略。
    • 数据: 只有未标注的数据 {x_i}
    • 核心思想: 人为定义一个任务,将输入数据 X 的一部分 X_part 作为“输入”,同一数据的另一部分 X_rest 或某种变换作为“伪标签” Y_pseudo。模型学习预测 Y_pseudo 给定 X_part。通过完成这个代理任务,模型被迫学习数据的内在结构和有用特征。
    • 模型作用: 模型学习一个条件分布 P_model(Y_pseudo | X_part; θ)。代理任务的损失函数(如交叉熵、对比损失)驱动参数学习。
    • 与无监督的关系: 自监督学习是无监督学习的一个子集或一种实现策略。其最终目标通常也是学习 P(X) 或其良好表示(编码器输出)。它通过定义代理的监督任务(学习 P(Y_pseudo | X_part))来间接达到这个目标。
    • 例子:
      • 掩码语言建模 (MLM - BERT): X_part = 带掩码的句子, Y_pseudo = 被掩码的词。学习 P(掩码词 | 上下文)。目标是学习语言表示。
      • 自回归语言建模 (GPT): X_part = 前序词序列, Y_pseudo = 下一个词。学习 P(下一个词 | 前文)。目标是显式建模 P(整个句子)
      • 对比学习 (SimCLR, MoCo): 构造正负样本对。模型学习将同一数据的不同增强视图(X_partX_part')的表示拉近(视为正对 Y_pseudo=相似),与其他数据的视图推远(负对 Y_pseudo=不相似)。学习 P(相似 | 样本对) 或更一般地,学习一个表示空间使得相似样本靠近。
      • 图像旋转预测: X_part = 旋转后的图像, Y_pseudo = 旋转角度。学习 P(旋转角度 | 图像)
      • 图像补块排序/拼图: X_part = 打乱的图像块, Y_pseudo = 正确的顺序/位置。学习 P(正确顺序 | 乱序块)

三、 小结:AI/Model的统计学习本质

  1. 核心目标: 机器学习模型的核心本质是学习一个能够最佳近似观测数据真实生成过程P_data的参数化概率分布P_model(·; θ)
  2. 任务视角:
    • 推断/预测任务: 主要关注学习和利用条件概率分布P(Y | X)
    • 生成任务: 主要关注学习和利用联合概率分布P(X)P(X, Z) 以及从中采样。
  3. 学习范式视角:
    • 监督学习: 显式地、直接地学习条件概率分布P(Y | X)。数据提供 (X, Y) 对。
    • 无监督学习: 显式地或隐式地学习联合概率分布 P(X)P(X, Z)。数据只提供 X
    • 自监督学习:无监督学习的一种高效策略。它通过**构造代理条件分布 **P(Y_pseudo | X_part) 并利用数据自身信息作为“伪标签”来学习,其最终目标是学习 P(X) 或其高质量的内部表示(编码),为下游的监督或无监督任务服务。它巧妙地利用了监督学习的技术框架来解决无监督学习的核心问题。

简而言之,模型就是在参数化函数族中寻找一个参数 θ*,使得 P_model(·; θ*) 成为 P_data(·) 的最佳代理。不同的学习范式和任务类型,决定了我们关注的是 P_data 的哪个具体部分(条件分布 P(Y|X) 还是联合分布 P(X)),以及我们如何利用数据(有无标签 Y, 是否构造伪标签 Y_pseudo)来驱动这个逼近过程。

四,自监督学习的补充

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910640.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI落地应用实战】Chaterm:重新定义终端操作的AI智能工具

目录 一、AI Agent 终端新范式二、Chaterm安装与基础功能体验2.1、源码安装与配置2.2、基础功能体验 三、Chaterm运维案例实践四、从 Chaterm 看智能终端工具的演进方向4.1 更低门槛:面向“非专业人员”的运维民主化4.2 更强扩展性:从工具到平台的演化 五…

IO多路复用——Select底层原理深度分析(流程图)

文章目录 1.kern_select 参数验证和初始化流程2. do_select() 详细实现流程3. 位图数据结构详解4. 文件描述符处理详细流程5. Poll方法调用链6. 等待机制实现7. 用户态处理就绪事件8. 性能瓶颈分析9. 与其他I/O多路复用对比 Select 整体调用流程: #mermaid-svg-766A…

多光谱扫描技术在实物建模中的应用:如何实现1:1真实材质还原

在实物建模领域,传统方式常常陷入尴尬境地:耗费大量时间精力构建的模型,材质看起来却与真实物体相差甚远,塑料质感的 “金属”、模糊不清的纹理,让模型失去了应有的真实感。而在文物保护、产品设计等对真实材质还原要求…

Python复杂网络分析和建模库之networkx使用详解

概要 在当今信息爆炸的时代,复杂网络无处不在。NetworkX是一个用于创建、操作和研究复杂网络结构、动态和功能的Python库。它提供了丰富的数据结构来表示各种类型的网络,如无向图、有向图、加权图等,并支持大量的图算法,包括最短路径计算、中心性分析、社区发现等。 安装 …

前端依赖升级完全指南:npm、pnpm、yarn 实践总结

在前端项目开发过程中,定期升级依赖不仅能享受新特性、修复安全问题,还能保证工具链长期稳定运行。本文全面总结 npm、pnpm、yarn 三大主流包管理器在 依赖包升级 方面的实践方法,并补充版本符、依赖安装的基础知识,适合新手与有经…

[持续集成]

学习目标 能够使用 Git 代码托管平台管理代码能够实现 jenkinspostman 的持续集成能够实现 jenkins代码 的持续集成 持续集成 概念 : 将自己工作成果持续不断地把代码聚集在一起,成员可以每天集成一次或多次相关工具 : git : 代码管理工具,自带本地仓库gitee : 远程代码管理…

FSMC控制LCD(TFTLCD:Z350IT002)显示案例

显存不一定要擦除,只要来一个地址就可以对其进行读写,而且一般的需求是不停的写入(不同的像素点给不同的值),所以是RAM(flash和E2PROM要擦除才能写入),由于FSMC没有DRAM所以我们只能…

云原生周刊:Argo CD v3.1 正式发布

开源项目推荐 Kubewall Kubewall 是一个轻量级的开源 Kubernetes 仪表盘,支持多集群管理,主打单二进制部署和浏览器访问,提供实时资源监控、YAML 编辑、拓扑视图、日志查看等功能。它使用 Go 与 React 构建,支持通过 Docker、He…

Aerotech系列(3)开发库介绍

库对象模型 名空间列表 NamespaceDescriptionAerotech.A3200 The main namespace of the Aerotech A3200 .NET library Aerotech.A3200.Callbacks Contains the classes that allow interacting with callbacks Aerotech.A3200.Commands Contains the classes that allows …

Spring--IOC容器的一些扩展属性

一、BeanFactoryPostProcessor和BeanPostProcessor BeanFactoryPostProcessor的作用是在实例化前修改BeanDefinition的属性 BeanPostProcessor的作用是在bean完成创建实例、填充属性之后,初始化阶段的前后都会对bean进行操作,使用postProcessBeforeIni…

8w字:推荐系统技术体系深度解析:从理论基础到工业实践的完整指南

插话:刚接触推荐系统还是大一下作比赛,然后找资料,顺便在巧合下在“识典百科”(现在叫快懂百科,抖音的,改好几回名了,还要一条条插入引用资料,现在看来,好像抖音也不在乎…

RA4M2开发IOT(8)----IIC驱动OLED

RA4M2开发IOT.8--IIC驱动OLED 概述视频教学样品申请硬件准备参考程序修改IIC驱动OLED属性配置移植SSD1306字符取模ASCII显示图片取模显示图片 概述 本章旨在通过 IC 接口驱动 OLED 显示屏(常见型号如 SSD1306),实现图形和文本的显示功能。OL…

数组题解——​轮转数组【LeetCode】

189. 轮转数组 通过三次反转操作,可以实现数组的轮转: 反转整个数组: 将数组完全反转,使得原数组的后 k 个元素移动到数组的前面。反转前 k 个元素: 将前 k 个元素反转,恢复它们的原始顺序。反转后 n - k 个元素: 将后 n - k 个元…

AR 眼镜之-条形码识别-实现方案

目录 📂 前言 AR 眼镜系统版本 条形码识别 1. 🔱 技术方案 1.1 技术方案概述 1.2 实现方案 1)相机App显示模块 2)算法so库JNI模块 3)算法条形码识别模块 2. 💠 实现相机App显示模块 2.1 创建 Ba…

华为云 Flexus+DeepSeek 征文|基于 CCE 集群部署 Dify 平台工作流:科研论文翻译与 SEO 优化工具的全流程设计实践

华为云 FlexusDeepSeek 征文|基于 CCE 集群部署 Dify 平台工作流:科研论文翻译与 SEO 优化工具的全流程设计实践 背景 作为被科研论文折磨已久的大学生,希望研究成果能被更多人看到,尤其是在学术全球化的趋势下,论文翻…

C++对象继承详解:从入门到精通

继承是面向对象编程的三大特性之一,也是C中实现代码复用和多态的重要机制。本文将带你深入理解C继承的核心概念与应用。 一、继承的基本概念 1.1 什么是继承? 继承允许我们基于已有的类创建新类,新类(派生类)可以继…

Jenkins安装与配置全攻略:从入门到高级功能实战

在DevOps实践中,Jenkins作为最流行的持续集成工具之一,扮演着至关重要的角色。本文将全面介绍Jenkins的安装、配置及高级功能使用,帮助开发、运维和测试团队快速搭建高效的CI/CD流水线。 一、Jenkins安装 1.1 环境准备 Jenkins官网:https://jenkins.io 注意:Jenkins 2…

[OS_26] 计算机系统安全 | CIA原则 | 侧信道攻击

系统调用是唯一访问操作系统对象的途径 拒绝越权访问 →→ Confidentiality拒绝越权修改 →→ Integrity(再加上公平资源调度 →→ Availability) 在操作系统 API 上,我们可以构建命令行工具、编译器、数据库、浏览器等丰富的应用。 当越来越多用户开始共享计算机、…

Chromium 136 编译指南 macOS篇:编译优化技巧(六)

1. 引言 在现代软件开发的高效化进程中,编译优化已经从简单的性能调优发展为一门综合性的工程科学。对于Chromium 136这样一个包含超过2500万行代码的超大规模项目而言,编译时间往往成为制约开发效率的关键瓶颈。在典型的开发场景中,一次完整…

Spark教程6:Spark 底层执行原理详解

文章目录 一、整体架构概述二、核心组件详解1. SparkContext2. DAG Scheduler3. Task Scheduler4. Executor 三、作业执行流程1. DAG 生成与 Stage 划分2. Task 调度与执行3. 内存管理 四、Shuffle 机制详解1. Shuffle 过程2. Shuffle 优化 五、内存管理机制1. 统一内存管理&am…