Delta、Jackknife、Bootstrap

班级平均身高的案例,展示 ​Delta、Jackknife、Bootstrap​ 的完整计算过程


​0. 数据准备

原始数据(4个学生的身高)​​:

                X = [160\,\text{cm},\ 170\,\text{cm},\ 175\,\text{cm},\ 185\,\text{cm}]

真实均值(目标统计量)​​:

                \bar{X} = \frac{160 + 170 + 175 + 185}{4} = 172.5\,\text{cm}


1. Delta 方法(公式法)​

目标​:计算均值的方差\text{Var}(\bar{X})

步骤 1:计算样本方差S^2

S^2 = \frac{\sum (X_i - \bar{X})^2}{n-1}

具体计算:

\begin{aligned} (160-172.5)^2 &= (-12.5)^2 = 156.25 \\ (170-172.5)^2 &= (-2.5)^2 = 6.25 \\ (175-172.5)^2 &= (2.5)^2 = 6.25 \\ (185-172.5)^2 &= (12.5)^2 = 156.25 \\ \end{aligned}

S^2 = \frac{156.25 + 6.25 + 6.25 + 156.25}{3} = \frac{325}{3} \approx 108.33

步骤 2:计算均值的方差

\text{Var}(\bar{X}) = \frac{S^2}{n} = \frac{108.33}{4} = 27.08

​Delta 方法结果

\boxed{\text{Var}(\bar{X}) = 27.08}


2. Jackknife 方法(刀切法)​

目标​:通过每次去掉一个数据点,计算均值的波动。

步骤 1:计算“去掉一个点”的均值

去掉的数据点剩余数据计算均值 \bar{X}_{-i}
160cm[170, 175, 185](170+175+185)/3 = 176.67
170cm[160, 175, 185](160+175+185)/3 ≈ 173.33
175cm[160, 170, 185](160+170+185)/3 ≈ 171.67
185cm[160, 170, 175](160+170+175)/3 = 168.33

步骤 2:计算“伪值”(Pseudo-values)​

伪值公式:

\tilde{X}_i = n \bar{X} - (n-1) \bar{X}_{-i}

计算:

\begin{aligned} \tilde{X}_1 &= 4 \times 172.5 - 3 \times 176.67 = 690 - 530 = 160 \\ \tilde{X}_2 &= 4 \times 172.5 - 3 \times 173.33 = 690 - 520 = 170 \\ \tilde{X}_3 &= 4 \times 172.5 - 3 \times 171.67 = 690 - 515 = 175 \\ \tilde{X}_4 &= 4 \times 172.5 - 3 \times 168.33 = 690 - 505 = 185 \\ \end{aligned}

注:因为均值是线性统计量,伪值会还原出原始数据。但对非线性统计量​(如中位数),伪值会体现每个数据点的影响。

步骤 3:计算伪值的方差

\text{Var}(\tilde{X}) = \frac{\sum (\tilde{X}_i - \bar{X})^2}{n} = \frac{(160-172.5)^2 + \cdots + (185-172.5)^2}{4} = \frac{325}{4} = 81.25

然后调整:

\text{Var}(\bar{X}) = \frac{\text{Var}(\tilde{X})}{n} = \frac{81.25}{4} = 20.31

⚠️这里和 Delta 方法结果不同,原因是伪值计算方式对非线性统计量更准确,但对均值会略有偏差)

​Jackknife 方法结果

\boxed{\text{Var}(\bar{X}) \approx 20.31}


3. Bootstrap 方法(自助法)​

目标​:通过重复抽样模拟均值分布,计算方差。

步骤 1:从原始数据中有放回抽样

我们进行 ​5 次抽样​(实际中需 1000+ 次,这里简化演示):

抽样次数抽到的数据(有放回)计算均值\bar{X}^*
1[160, 170, 175, 185]172.5
2[170, 170, 175, 185](170+170+175+185)/4=175
3[160, 175, 185, 185](160+175+185+185)/4=176.25
4[160, 160, 170, 175](160+160+170+175)/4=166.25
5[170, 175, 175, 185](170+175+175+185)/4=176.25

步骤 2:计算这些均值的方差

\text{Var}(\bar{X}) = \frac{(172.5-172.5)^2 + (175-172.5)^2 + (176.25-172.5)^2 + (166.25-172.5)^2 + (176.25-172.5)^2}{5}

 = \frac{0 + 6.25 + 14.06 + 39.06 + 14.06}{5} = \frac{73.43}{5} \approx 14.69

⚠️ 由于抽样次数太少,结果不稳定,实际 1000+ 次会接近 27.08

​Bootstrap 方法结果(5次抽样)

\boxed{\text{Var}(\bar{X}) \approx 14.69}


​4. 最终对比

方法计算方式结果 \text{Var}(\bar{X})备注
Delta公式\frac{S^2}{n}27.08最快,但依赖公式
Jackknife伪值方差调整20.31适用于无公式统计量
Bootstrap重复抽样计算方差≈27.08(需大样本)最稳健,但计算量大

​5. 关键结论

  1. Delta 最快,但必须知道公式(如均值、回归系数)。
  2. Jackknife 更通用,适合中位数等无公式统计量。
  3. Bootstrap 最稳健,但需要大量计算(通常抽 1000+ 次)。

6. 补充

如何理解“伪值”?

伪值 = 用“拆数据”的方式,模拟统计量对单个数据点的依赖程度。​

想象你是班主任,想知道班上每个学生对“平均分”的影响有多大。于是你:

  1. 先计算全班平均分​(比如80分);
  2. 让每个学生轮流请假,重新计算剩下学生的平均分;
  3. 比较“请假前后”的差异,这个差异就是该学生的“伪值”。

伪值的意义

  • 如果某个学生请假后,平均分从80掉到75,说明他对班级影响很大(伪值低);
  • 如果请假后平均分几乎不变,说明他影响小(伪值接近均值)。

Jackknife方法中伪值的计算公式

对统计量 T(如均值、中位数),伪值定义为:

其中​:

  • n:总数据量;
  • T全量​:用全部数据计算的统计量(如均值);
  • T去掉第i个点​:去掉第 i 个数据后重新计算的统计量。

伪值的核心作用

  1. 估计偏差​:通过伪值的均值可以修正统计量的偏差。
  2. 计算方差​:用伪值的方差推断原统计量的稳定性(如Jackknife方差公式)。

类比

  • 伪值​ ≈ ​​“数据点的贡献值”​​,就像公司评估员工绩效:
    • 全公司业绩 = 100万(T全量​);
    • 去掉员工A后业绩 = 90万(T−i​);
    • 员工A的伪值 = n×100−(n−1)×90=10(他对业绩的净贡献)。

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
    如若转载,请注明出处:http://www.pswp.cn/diannao/89824.shtml
    繁体地址,请注明出处:http://hk.pswp.cn/diannao/89824.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    企业智脑技术架构设计:紧贴企业场景规划面向未来的发展趋势与实现路径

    摘要 本文深入探讨了企业智脑技术架构的设计理念与发展趋势,分析了当前企业智能化转型的技术需求与挑战,提出了一个面向未来的企业智脑技术架构设计方案。文章从底层技术支撑、核心能力构建、应用场景适配、安全合规保障以及未来发展路径五个维度展开论…

    新手向:Python方向讲解

    从NASA火星任务到TikTok推荐算法,从自动化脚本到量子计算,Python用import antigravity重新定义了编程边界 一、设计哲学:优雅明确的编程禅学 Python之禅(import this): 优美胜于丑陋(Beautifu…

    Chrome谷歌浏览器插件ModHeader,修改请求头,开发神器

    文章目录一、介绍与下载二、使用一、介绍与下载 ModHeader顾名思义就是让我们可以自定义HTTP请求头或者是重写响应头,包括新增请求头/响应头或者覆盖Chrome浏览器设置的请求头的默认值,同时还可以根据URL Pattern来只对特定网站生效。 有条件的同学可以…

    SEW:无监督预训练在语音识别中的性能-效率权衡

    摘要 本文研究了自动语音识别(ASR)中预训练模型的性能-效率权衡问题。我们聚焦于 wav2vec 2.0,并形式化了多种影响模型性能和效率的架构设计。基于所有观察结果,我们提出了 SEW(Squeezed and Efficient Wav2vec&#…

    linux系统部署express+vue项目

    一、准备阶段: 1、安装linux上所需要的环境:npm nodejs nginx pm2 //安装 npm(Node 包管理器) sudo apt install npm//判断是否安装成功 npm -v//安装 Node.js(可以根据需要选择版本) sudo apt inst…

    PixiJS教程(004):点击事件交互

    1.6 事件交互实现要求:点击宝剑,修改宝剑的颜色。1️⃣实现代码: // 为精灵添加交互事件 sprite.interactive true; sprite.on(click, () > {// 点击精灵时,改变精灵的颜色sprite.tint Math.random() * 0xFFFFFF; });说明&am…

    创客匠人助力家庭教育IP破局:从0到1打造创始人个人品牌全攻略

    一、IP定位:细分赛道的精准锚定与用户画像构建 在家庭教育8000亿市场规模的竞争中,创始人IP的差异化定位成为破局关键。创客匠人通过“标签化定位”工具,帮助教育者锁定垂直领域,如亲子沟通、青春期教育等细分赛道。以景丽霞老师…

    使用坚果云扩容Zotero同步空间的简单快捷方法

    本文介绍基于坚果云的WebDAV协议,用于文献管理软件Zotero的文件同步,从而实现Zotero存储空间扩容的方法。 在之前的文章Zotero文献管理软件入门使用方法:软件下载、文献导入、引文插入(https://blog.csdn.net/zhebushibiaoshifu/a…

    Java启动脚本

    Java启动脚本 编写代码,然后打包 Java-1.0-SNAPSHOT.jar public class test {public static void main(String[] args) {System.out.println("Hello IDEA");} }编写运行脚本 #!/bin/sh WORKDIR$(cd $(dirname $0); pwd) cd $WORKDIRexport JAVA_OPTS"…

    VSCode使用ssh远程连接阿里云

    1. 终端选择 Windows使用PowerShell Ubuntu和Mac使用Terminal 2. 设置ssh 2.1. 第一台电脑 生成密钥 ssh-keygen -o -t rsa -b 4096 -C "emailexample.com" 按三次回车 查看密钥 cat ~/.ssh/id_rsa.pub 拷贝密钥,粘贴到服务器的密钥框中 2.2. 第…

    XLSR-Wav2Vec2:用于语音识别的无监督跨语言表示学习

    摘要 本文提出了 XLSR,该方法通过从多种语言的原始语音波形中预训练单个模型,以学习跨语言的语音表示。我们基于 wav2vec 2.0 构建模型,该方法通过对掩蔽后的潜在语音表示解决对比任务进行训练,并联合学习在多种语言之间共享的潜…

    图灵完备之路(数电学习三分钟)----数据选择器与总线

    1.数据选择器之前我们学习了逻辑与算数的计算,得知两个数字之间的加减和与或的结果是不同的,而一个通用的数字电路不可能只有一个功能,所以我们将在本节引入电路选择器这一“器件”,来实现对两个输入的运算方式的选择,…

    Linux下如何设置CUDA的路径

    今天遇到一个关于CUDA的问题,我要跑的深度学习代码,他里面有cuda编程,需要编译。但是你运行就报错。 代码提示我大段报错。 (score-denoise) ubuntuGPUA10002:~/wbd/score-denoise_Transformerdepth20$ python train.py Detected CUDA fil…

    js树的排序

    树 树的前中后序遍历 树是一种重要的非线性数据结构,尤其是二叉树。二叉树的遍历是操作树的基础,主要有前序遍历、中序遍历和后序遍历三种方式。 前序遍历 访问顺序:根结点 -> 左子树 -> 右子树。 遍历规则:首先访问根结…

    解码 Red Stuff:Walrus 高效可靠存储的引擎

    Red Stuff 是 Walrus 所采用的二维(2D)纠删码协议,定义了数据如何被编码和存储。它是实现高效、安全、且高可用的去中心化存储的关键。通过 Red Stuff,Walrus 成功解决了去中心化存储系统常见的三大难题:安全性、复制效…

    【ACP】阿里云云计算高级运维工程师--ACP

    文章目录1、简要介绍2、核心特点3、考试相关信息4、适合人群1、简要介绍 阿里云云计算认证ACP(Alibaba Cloud Certified Professional)是面向云计算技术与应用从业者的专业级认证,旨在评估考生对阿里云云计算产品的理解、部署、运维及最佳实…

    快速掌握Python编程基础

    干货分享,感谢您的阅读!备注:本博客将自己初步学习Python的总结进行分享,希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力,如有错误请留言指正,谢谢!(持续更新&a…

    「Java案例」鸡兔同笼问题

    案例解析 鸡兔同笼求解 《孙子算经》是中国古代重要的数学著作,成书于南北朝时期,其中就记载了一个有趣的问题:鸡和兔在同一个笼子里,鸡和兔共有n条腿, m个头,问鸡和兔各有多少只?编写一个程序…

    BLDC电机-运动控制---stm32时钟树定时器SYSTICKRTC的学习

    一、时钟树 二、基本定时器 三、通用定时器 四、高级定时器 五、SYSTICK 六、RTC

    Implementing a User-Defined Preconditioner in PETSc

    文章目录Implementing a User-Defined Preconditioner in PETScBasic ApproachExample ImplementationUsing Your PreconditionerAdvanced OptionsImportant NotesUsing PCShell to Implement User-Defined Preconditioners in PETScBasic Implementation StepsAdvanced Featur…