Bootstrap法进行随机模拟

一、问题背景

# 26名神经功能受损儿童接受了两组（A组与B组）空间知觉测试，得分如下A组和B组数据。
# A组数据
x_A <- c(48, 36, 20, 29, 42, 42, 20, 42, 22, 41, 45, 14, 6, 0, 33, 28, 34, 4, 32, 24, 47, 41, 24, 26, 30, 41)# B组数据
x_B <- c(42, 33, 16, 39, 38, 36, 15, 33, 20, 43, 34, 22, 7, 15, 34, 29, 41, 13, 38, 25, 27, 41, 28, 14, 28, 40)

二、问题求解

问题一

给出A组与B组得分的皮尔逊相关系数的Bootstrap点估计、区间估计（95%置信区间）

Bootstrap估计皮尔逊相关系数及置信区间的步骤原理

计算原始样本的皮尔逊相关系数
先对A组和B组的原始数据计算皮尔逊相关系数，作为点估计。
Bootstrap重抽样
设定Bootstrap重复次数B（如1000），每次从原始数据中有放回地随机抽取n对（n为样本容量）A组和B组数据，形成新的样本对。
每次重抽样计算相关系数
对每一次Bootstrap样本，计算其皮尔逊相关系数，记录下来，最终得到B个相关系数的Bootstrap分布。
点估计与置信区间
- 点估计：用原始样本的皮尔逊相关系数。
- 置信区间：对B个Bootstrap相关系数，取其2.5%和97.5%的分位数，作为95%置信区间的下限和上限。
结果解释
通过Bootstrap方法，可以在不依赖正态分布假设的情况下，获得相关系数的稳健置信区间。

公式原理说明

皮尔逊相关系数公式：

设有两组数据 $X = (x_1, x_2, ..., x_n)$ ， $Y = (y_1, y_2, ..., y_n)$ ，其皮尔逊相关系数计算公式为：
$\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}}$
其中 $\bar{x}$ 和 $\bar{y}$ 分别为 $X$ 和 $Y$ 的均值。

Bootstrap置信区间原理：

从原始样本 $x_i, y_i)$ 有放回地抽取 $n$ 对，重复 $B$ 次，得到 $B$ 组Bootstrap样本。
每组Bootstrap样本计算皮尔逊相关系数 $r^*_b$ ， $b = 1, 2, ..., B$ 。
置信区间为 $r^*$ 的第2.5百分位数和第97.5百分位数：
$\text{CI}_{95\%} = \left[ Q_{0.025}(r^*),\ Q_{0.975}(r^*) \right]$
其中 $Q_p(r^*)$ 表示 $r^*$ 的第 $p$ 分位数。

这种方法无需对原始数据分布做正态性假设，适用于样本量较小或分布未知的情况。

set.seed(1234)
n <- length(x_A)
B <- 1000 # Bootstrap重复次数
boot_corr <- numeric(B)for (i in 1:B) {idx <- sample(1:n, n, replace = TRUE)boot_corr[i] <- cor(x_A[idx], x_B[idx], method = "pearson")
}# 点估计
corr_hat <- cor(x_A, x_B, method = "pearson")
# 置信区间
ci <- quantile(boot_corr, c(0.025, 0.975))cat("皮尔逊相关系数点估计:", round(corr_hat, 3), "\n")
cat("Bootstrap 95%置信区间: [", round(ci[1], 3), ",", round(ci[2], 3), "]\n")

皮尔逊相关系数点估计: 0.821 
Bootstrap 95%置信区间: [ 0.662 , 0.913 ]

问题二

以B组得分为因变量，A组得分为自变量，建立一元线性回归模型： $B_i = b +aA_i + \epsilon_i(i=1,2,...,26)$ ,请给出a的Bootstrap点估计和假设检验

Bootstrap点估计与假设检验的具体操作步骤

建立一元线性回归模型
用B组得分为因变量，A组得分为自变量，拟合模型 $B_i = b + aA_i + \epsilon_i$ ，得到回归系数 $a$ 的原始点估计。
Bootstrap重抽样
设定Bootstrap重复次数 $B$ （如1000），每次从原始数据中有放回地随机抽取 $n$ 对 $A_i, B_i)$ ，形成新的样本对。
每次重抽样拟合回归模型
对每一次Bootstrap样本，拟合一元线性回归模型，记录回归系数 $a^*_b$ ，最终得到 $B$ 个 $a^*$ 的Bootstrap分布。
点估计与置信区间
- 点估计：用原始样本拟合得到的 $a$ 。
- 置信区间：对 $B$ 个 $a^*$ ，取其2.5%和97.5%的分位数，作为 $a$ 的95%置信区间。
假设检验（a=0）
计算 $a = 0$ 在Bootstrap分布中的分位数，得到双侧 $p$ 值： $\times \min(\text{比例}(a^* \geq 0), \text{比例}(a^* \leq 0))$ 。若 $p$ 值较小，说明 $a$ 显著不为0。
结果解释
通过Bootstrap方法，可以在不依赖正态分布假设的情况下，对回归系数 $a$ 进行稳健的点估计、区间估计和显著性检验。

set.seed(1234)
n <- length(x_A)
B <- 1000
boot_a <- numeric(B)for (i in 1:B) {idx <- sample(1:n, n, replace = TRUE)fit <- lm(x_B[idx] ~ x_A[idx])boot_a[i] <- coef(fit)[2]
}# 点估计
fit_full <- lm(x_B ~ x_A)
a_hat <- coef(fit_full)[2]# 置信区间
ci_a <- quantile(boot_a, c(0.025, 0.975))# 假设检验（p值）：计算a=0在bootstrap分布中的分位数
p_value <- 2 * min(mean(boot_a >= 0), mean(boot_a <= 0))cat("回归系数a的点估计:", round(a_hat, 3), "\n")
cat("Bootstrap 95%置信区间: [", round(ci_a[1], 3), ",", round(ci_a[2], 3), "]\n")
cat("a=0的双侧p值:", round(p_value, 4), "\n")

回归系数a的点估计: 0.656 
Bootstrap 95%置信区间: [ 0.49 , 0.847 ]
a=0的双侧p值: 0

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/84842.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/84842.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！