知识蒸馏 Knowledge Distillation 论文 Generalized Knowledge Distillation (GKD) 乘法法则、全概率公式、贝叶斯定理

知识蒸馏 Knowledge Distillation 论文 Generalized Knowledge Distillation (GKD) 乘法法则、全概率公式、贝叶斯定理

flyfish

代码实践

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

设定(方便算数):市场里共有 100 个物品,分布如下

苹果(Apple):30 个 → P(Apple)=30100=0.30P(\text{Apple})=\dfrac{30}{100}=0.30P(Apple)=10030=0.30

其中 红色苹果 24 个,非红苹果 6 个。 所以 P(Red∣Apple)=2430=0.80P(\text{Red}\mid \text{Apple})=\dfrac{24}{30}=0.80P(RedApple)=3024=0.80
其他水果(OtherFruit):20 个 → P(OtherFruit)=0.20P(\text{OtherFruit})=0.20P(OtherFruit)=0.20
其中红色的有 8 个,故 P(Red∣OtherFruit)=820=0.40P(\text{Red}\mid \text{OtherFruit})=\dfrac{8}{20}=0.40P(RedOtherFruit)=208=0.40

非水果(NonFruit):50 个 → P(NonFruit)=0.50P(\text{NonFruit})=0.50P(NonFruit)=0.50

其中红色的有 10 个,故 P(Red∣NonFruit)=1050=0.20P(\text{Red}\mid \text{NonFruit})=\dfrac{10}{50}=0.20P(RedNonFruit)=5010=0.20

检验计数和概率:24+8+10 = 42 个红色,总概率P(Red)=42/100=0.42P(\text{Red})=42/100=0.42P(Red)=42/100=0.42

1. 乘法法则 —— 解决“同时发生”的问题

问题场景
想知道“既是苹果,又是红色”的概率是多少。
交集概率 P(A∩B)P(A\cap B)P(AB)

直接算交集有时不容易,于是用条件概率来“分解”。

推导过程

定义条件概率:

P(A∣B)=P(A∩B)P(B)⇒P(A∩B)=P(A∣B)P(B).P(A\mid B) = \frac{P(A\cap B)}{P(B)} \quad\Rightarrow\quad P(A\cap B)=P(A\mid B)P(B). P(AB)=P(B)P(AB)P(AB)=P(AB)P(B).

对称地:

P(A∩B)=P(B∣A)P(A).P(A\cap B)=P(B\mid A)P(A). P(AB)=P(BA)P(A).

在这里插入图片描述

苹果例子

  • A=A=A=“是苹果”
  • B=B=B=“是红色”

要算 P(A∩B)=P(红色苹果)P(A\cap B)=P(\text{红色苹果})P(AB)=P(红色苹果)
用乘法法则:

P(红色苹果)=P(红色∣苹果)⋅P(苹果).P(\text{红色苹果})=P(\text{红色}\mid \text{苹果}) \cdot P(\text{苹果}). P(红色苹果)=P(红色苹果)P(苹果).

代入数据:

=0.80×0.30=0.24.=0.80\times0.30=0.24. =0.80×0.30=0.24.

结论:有 24% 的物品是红色苹果。

乘法法则解决的问题:当想要“同时发生”的概率时,可以先算一个条件概率,再乘以边缘概率。

2. 全概率公式 —— 解决“分解复杂事件概率”的问题

问题场景
想知道“随机拿一个是红色的概率” P(B)P(B)P(B)
但红色物体可能来自不同来源(苹果、其他水果、非水果)。
于是把复杂的事件 BBB 分解为一系列互斥情形

推导过程

{Hi}\{H_i\}{Hi} 是一组互斥且完备的划分(如“是苹果 / 其他水果 / 非水果”)。
那么:

P(B)=∑iP(B∩Hi).P(B)=\sum_i P(B\cap H_i). P(B)=iP(BHi).

再用乘法法则:

P(B)=∑iP(B∣Hi)P(Hi).P(B)=\sum_i P(B\mid H_i)\,P(H_i). P(B)=iP(BHi)P(Hi).

在这里插入图片描述

苹果例子

要算 P(红色)P(\text{红色})P(红色)

P(红色)=P(红色∣苹果)P(苹果)+P(红色∣其他水果)P(其他水果)+P(红色∣非水果)P(非水果).P(\text{红色}) =P(\text{红色}\mid \text{苹果})P(\text{苹果}) +P(\text{红色}\mid \text{其他水果})P(\text{其他水果}) +P(\text{红色}\mid \text{非水果})P(\text{非水果}). P(红色)=P(红色苹果)P(苹果)+P(红色其他水果)P(其他水果)+P(红色非水果)P(非水果).

代入数据:

=0.80×0.30+0.40×0.20+0.20×0.50=0.42.=0.80\times0.30 + 0.40\times0.20 + 0.20\times0.50 =0.42. =0.80×0.30+0.40×0.20+0.20×0.50=0.42.

结论:有 42% 的物品是红色的。

全概率公式解决的问题:当一个事件可以由不同来源组成时(多条路径导致同一个结果),把它分解成加和。

3. 贝叶斯定理 —— 解决“逆向推理”的问题

问题场景
看到一个物品是红色(结果/证据),想问:它是苹果的概率是多少?
P(苹果∣红色)P(\text{苹果}\mid \text{红色})P(苹果红色)
这就是“由结果推原因”。

推导过程

乘法法则:

P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A).P(A\cap B)=P(A\mid B)P(B)=P(B\mid A)P(A). P(AB)=P(AB)P(B)=P(BA)P(A).

整理:

P(A∣B)=P(B∣A)P(A)P(B).P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}. P(AB)=P(B)P(BA)P(A).

再把 P(B)P(B)P(B) 用全概率公式展开:

P(A∣B)=P(B∣A)P(A)∑iP(B∣Hi)P(Hi).P(A\mid B)=\frac{P(B\mid A)P(A)}{\sum_i P(B\mid H_i)P(H_i)}. P(AB)=iP(BHi)P(Hi)P(BA)P(A).

在这里插入图片描述

苹果例子

要算“看到红色 → 是苹果的概率”:

P(苹果∣红色)=P(红色∣苹果)⋅P(苹果)P(红色).P(\text{苹果}\mid \text{红色}) =\frac{P(\text{红色}\mid \text{苹果})\cdot P(\text{苹果})}{P(\text{红色})}. P(苹果红色)=P(红色)P(红色苹果)P(苹果).

代入数据:

=0.80×0.300.42=0.240.42≈0.571.=\frac{0.80\times0.30}{0.42}=\frac{0.24}{0.42}\approx 0.571. =0.420.80×0.30=0.420.240.571.

结论:如果看到红色,57.1% 的可能性是苹果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96381.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96381.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Fastjson 2.x踩坑——序列化Java字段为null值默认输出

先上无法实现效果的代码,我的目的是序列化时如果数字型字段为null则填0,尽可能保证数据整齐。 Data NoArgsConstructor AllArgsConstructor ToString JSONType(serializeFeatures {JSONWriter.Feature.WriteNulls,JSONWriter.Feature.WriteMapNullValue…

4G高负荷解决方案

4G高负荷解决方案 一、网络优化手段(低成本优先)参数优化 调整功率控制、负荷均衡参数。优化小区重选与切换参数,避免高负荷小区拥塞。负荷均衡 开启 MLB(Mobility Load Balancing,移动负荷均衡)。引导用户…

K8S 安装部署 Rocky Linux 10.0 + Docker + Containerd + Calico

Docker Containerd Flannel 安装部署K8S 系统环境准备 # 1. 设置主机名 hostnamectl set-hostname k8s-n1 && bash# hostnamectl set-hostname k8s-n2 && bash # hostnamectl set-hostname k8s-n3 && bash# 2. 删除系统自带的容器软件(可…

新华三H3CNE网络工程师认证—等价路由

等价路由就是“去同一个地方有多条路,时间一样近,快递站聪明地分拨送货”的技术!(网络不堵车,速度翻倍爽!)路由表中存在等价路由之后,前往该目的网段的IP报文路由器辉通过所有有效的…

DBLens 业界首创AI表结构变更审查,智能评估影响,助力开发效率跃升。

智能守护每一次变更:dblens AI 审查流程详解 在快速迭代的软件开发过程中,数据库结构变更是常见却高风险的操作。一次不经意的字段调整,可能引发线上故障、数据不一致甚至业务中断。为应对这一挑战,dblens 率先引入AI驱动的表结构…

窗口看门狗(WWDG)

窗口看门狗(WWDG)1. WWDG 简介作用:在应用跑飞、死循环、长时间被中断占用等异常时,强制复位 MCU,提高系统可靠性。时钟来源:来自 APB1 时钟 (PCLK1) 的分频(与 IWDG 的 LSI 独立时钟不同&#…

PyTorch API 6

文章目录torch.onnx概述基于 TorchDynamo 的 ONNX 导出器基于TorchScript的ONNX导出器贡献与开发torch.optim如何使用优化器构建优化器每个参数的选项执行优化步骤optimizer.step()optimizer.step(closure)基类算法如何调整学习率如何利用命名参数加载优化器状态字典权重平均法…

2025年09月计算机二级MySQL选择题每日一练——第二期

计算机二级中选择题是非常重要的,所以开始写一个每日一题的专栏。 答案及解析将在末尾公布! 今日主题:SQL 交互操作基础 1、有如下创建表的语句: CREATE TABLE tb_gs( gno CHAR(10) NOT NULL, sno CHAR(10) NOT NULL, gjob CH…

MySQL诊断系列(5/6):表结构与元数据查询——快速掌握数据库“DNA”

🔗 接上一篇《MySQL性能瓶颈定位》,今天我们来学习如何像查字典一样,快速、精准地了解任何数据库的内部结构。 当你接手一个新项目,或者需要排查一个不熟悉的模块时,你最需要的是什么? 不是代码&#xff0…

精准评估新纪元:AI得贤招聘官AI面试智能体6.3,重新定义AI面试

随着生成式AI技术爆发式发展,人力资源管理正经历从“信息化”到“智能化”的跃迁。据Gartner预测,2025年60%的企业将使用AI完成HR基础事务性工作。在这场变革中,AI得贤招聘官以其卓越的技术实力和产品能力,已成为行业智能化转型的…

MinerU:重新定义PDF智能提取的开源利器

MinerU:重新定义PDF智能提取的开源利器 ——告别传统工具的“鸡肋”体验,让文档处理真正高效智能 在数字化时代,PDF、Word等文档已成为信息传递的主要载体,但如何从这些格式中精准提取数据,却成了困扰无数人的难题。…

电脑芯片其实更偏向MPU不是CPU,GPU CPU NPU MPU MCU的区别

现代电脑的处理器(如 Intel i5)本质上是 MPU,因为它集成了 CPU 核心、缓存、定时器等,但我们日常仍习惯称其为 “CPU”电脑里的芯片(如 Intel i5、AMD Ryzen)通常被通俗地称为 “CPU”,但严格来…

Python爬虫XPath实战:电商商品ID的精准抓取策略

1. 引言 在电商数据爬取过程中,商品ID(Product ID)是最关键的字段之一,它通常用于唯一标识商品,并可用于构建商品详情页URL、价格监控、库存查询等场景。然而,不同电商网站的HTML结构差异较大,…

Web3:重构互联网秩序的下一代范式革命

Web3(即 Web 3.0)作为互联网发展的第三代形态,并非简单的技术迭代,而是一场围绕 “数据主权” 与 “价值分配” 的底层逻辑重构。它以区块链为核心骨架,融合分布式存储、密码学、人工智能等技术,旨在打破 W…

DeepSeek R2难产:近期 DeepSeek-V3.1 发布,迈向 Agent 时代的第一步

DeepSeek R2难产:近期 DeepSeek-V3.1 发布,迈向 Agent 时代的第一步 要说 AI 模型的江湖,这一年简直就是 「大模型修罗场」。 前脚 R2 传出难产的风声,后脚 DeepSeek 就甩出了一张大招牌:DeepSeek-V3.1。 这波操作不…

element-plus:el-tree ref初始化异常记录

文章目录描述问题解决记录一个tsx 下el-tree的小问题描述 <Dialog v-model"showEdit" :title"t(button.edit)" width"900" :maxHeight"650"><el-form :model"nowdata" class"dialog"><el-form-ite…

Linux软件安装(JDK,Mysql,Nginx)

安装方式介绍一、安装JDKtar -zxvf jdk-17.0.10_linux-x64_bin.tar.gz -C /usr/localexport JAVA_HOME/usr/local/jdk-17.0.10export PATH$JAVA_HOME/bin:$PATHsource /etc/profile1、操作步骤二、mysql黑马视频已经安装好了我们只需开放指定端口就可以在navicat中连接了&#…

公有地址和私有地址

在计算机网络中&#xff0c;私有地址和公有地址是IP地址的两大重要分类&#xff0c;二者在网络通信中承担着不同角色。下面从定义、联系、区别和应用四个维度进行详细说明&#xff1a; 一、定义 1. 公有地址&#xff08;Public IP Address&#xff09; 公有地址是全球唯一且可在…

分治思想在系统分流削峰中的实践与Golang前沿实现

分治思想在系统分流削峰中的实践与Golang前沿实现 1. 分治思想概述 分治(Divide and Conquer)是计算机科学中一种重要的算法设计思想&#xff0c;其核心在于"分而治之"——将复杂问题分解为若干个规模较小的相同或相似子问题&#xff0c;递归地解决这些子问题&#x…

移动端视口终极解决方案:使用 Visual Viewport封装一个优雅的 React Hook

前言 在移动端开发中&#xff0c;视口高度一直是一个令人头疼的问题。尤其是在 iOS Safari 浏览器中&#xff0c;还有三星手机的导航遮挡&#xff0c;当虚拟键盘弹出时&#xff0c;视口高度的变化会导致固定定位元素错位、全屏布局异常等问题。本文将深入分析这个问题的本质&a…