文章目录
- 0. 概率论基础
- 0.1 概率的初步认知
- 0.2 随机变量的分布
- 0.3 随机变量的数字特征
- 0.3.1 随机变量的期望算子
- 0.3.2 随机变量的矩
- 0.4 随机变量的特征函数
- 0.5 高数基础
- 附录A 典型分布
0. 概率论基础
\quad\quad在生活中或自然中,处处都存在随机现象,比如每次抛硬币的结果有正面有反面,同样状态下枪连续发射多次,弹着点是一个范围,这就是随机性。更加严谨的说,在相同条件下对其做大量重复试验,每次结果未必相同或者知道过去的状态,但在事情发生前不能预知未来,这种非确定性现象就是随机。
0.1 概率的初步认知
\quad\quad人们对概率的认知主要来自于重复试验的事件发生频次,即在相同条件下进行了nnn次试验,事件AAA发生了mmm次,那么其频率为fn(A)=mnf_n(A)=\frac{m}{n}fn(A)=nm,我们称之为事件A发生的概率。
\quad\quad对于一个随机现象,其所有可能发生的结果组成样本空间Ω\OmegaΩ,那么在样本空间上的概率为P(Ω)=1P(\Omega)=1P(Ω)=1。如果部分的试验结果组成集合AAA,那么有A⊂ΩA\subset \OmegaA⊂Ω,同时有概率0≤P(A)≤10\le P(A)\le10≤P(A)≤1满足。集合论的运算律通过文氏图能够清晰的显示,同样可以用文氏图来说明概率的一些运算律。
\quad\quad 1.加法 \quad\quad P(A∪B)=P(A)+P(B)−P(A∩B)(0-1)P(A\cup B)=P(A)+P(B)-P(A\cap B)\tag{0-1}P(A∪B)=P(A)+P(B)−P(A∩B)(0-1)
下左图中, P(A∪B)P(A\cup B)P(A∪B)为A和B组成阴影部分的概率,下右图中P(A∩B)P(A\cap B)P(A∩B)为A和B相交部分的概率,上式意思为A或B发生的概率为A单独发生和B单独发生的概率之和减去A和B同时发生的概率。
\quad\quad 2.除法
\quad\quad 在讲除法时前先要引入条件概率的定义,即当B发生时A发生的概率称为B条件下A的概率,记为P(A∣B)P(A|B)P(A∣B)。当B发生时,样本空间变为Ω′=B\Omega^{'}=BΩ′=B,那么此时A发生的概率用在原样本空间Ω\OmegaΩ上定义的概率来表示即
P(A∣B)=P(A∩B)P(B)(0-2)P(A|B)=\frac{P(A\cap B)}{P(B)}\tag{0-2}P(A∣B)=P(B)P(A∩B)(0-2)
这就是概率的除法。
\quad\quad 3.乘法 \quad\quad 将上式分母乘到左侧就是概率乘法,特别的当A和B为独立的事件,那么乘法可以变为
P(A∩B)=P(A∣B)P(B)=P(A)P(B)(0-3)P(A\cap B)=P(A|B)P(B)=P(A)P(B)\tag{0-3}P(A∩B)=P(A∣B)P(B)=P(A)P(B)(0-3)
**注1:这里可以得到全概率公式,即对于∪i=1nBi=Ω\cup_{i=1}^nB_i=\Omega∪i=1nBi=Ω,有P(A)=∑i=1nP(A∣Bi)P(Bi)P(A)=\sum_{i=1}^nP(A|B_i)P(B_i)P(A)=∑i=1nP(A∣Bi)P(Bi)
**注2:同时可以得到贝叶斯公式,由P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)可以得到P(B∣A)=P(A∣B)P(B)∑i=1nP(A∣Bi)P(Bi)P(B|A)=\frac{P(A|B)P(B)}{\sum_{i=1}^nP(A|B_i)P(B_i)}P(B∣A)=∑i=1nP(A∣Bi)P(Bi)P(A∣B)P(B)
0.2 随机变量的分布
\quad\quad 对于离散随机变量,其在某点上的概率为P(X=x)P(X=x)P(X=x),称为频率函数,随机变量取小于或等于某一状态量的概率为FX(x)=P(X≤x)F_X(x)=P(X\le x)FX(x)=P(X≤x),称为累积函数(代表离散随机变量取值X≤xX\le xX≤x概率和)
\quad\quad 对于连续随机变量有一点变化,连续随机变量在一点上概率为零,但其在某区间上的概率可以定义为P(a≤X≤b)=∫abfX(x)dxP(a\le X\le b)=\int_a^bf_X(x)dxP(a≤X≤b)=∫abfX(x)dx称为概率密度函数(pdf),随机变量取小于或等于某一状态量的概率为FX(x)=P(X≤x)=∫−∞xfX(x′)dx′F_X(x)=P(X\le x)=\int_{-\infty}^xf_X(x')dx'FX(x)=P(X≤x)=∫−∞xfX(x′)dx′,称为累积函数(cdf)。
\quad\quad 离散常用的有伯努利分布、二项分布、几何分布、泊松分布等,连续常用的有正态分布(高斯分布)、指数分布、均匀分布,详见附录A。
0.3 随机变量的数字特征
0.3.1 随机变量的期望算子
\quad\quad首先,先引入期望算子E(⋅)E(\cdot)E(⋅),对于离散型随机变量,其对随机变量函数的期望为
E(g(x))=∑ig(xi)P(X=xi)(0-4)E(g(x))=\sum_ig(x_i)P(X=x_i)\tag{0-4}E(g(x))=i∑g(xi)P(X=xi)(0-4)
\quad\quad对于连续型随机变量,其对随机变量函数的期望为
E(g(x))=∫−∞+∞g(x)fX(x)dx(0-5)E(g(x))=\int_{-\infty}^{+\infty} g(x)f_X(x)dx\tag{0-5}E(g(x))=∫−∞+∞g(x)fX(x)dx(0-5)
**注:当然随机变量期望存在的前提条件为期望和式收敛或期望积分式是有限的。
\quad\quad期望算子是一个线性算子,即有下式成立
E(Y=a+∑i=1nXi)=a+∑i=1nE(Xi)(0-6)E(Y=a+\sum_{i=1}^nX_i)=a+\sum_{i=1}^nE(X_i)\tag{0-6}E(Y=a+i=1∑nXi)=a+i=1∑nE(Xi)(0-6)
0.3.2 随机变量的矩
\quad\quad矩是随机变量重要数字特征,定义kkk阶原点矩,如下所示(连续随机变量,离散同理可列,这里暂略)
E(xk)=∫−∞+∞xkfX(x)dx(0-7)E(x^k)=\int_{-\infty}^{+\infty} x^kf_X(x)dx\tag{0-7}E(xk)=∫−∞+∞xkfX(x)dx(0-7)
\quad\quad那么显然随机变量的一阶原点矩就是均值μ\muμ,即有E(x)=∫−∞+∞xfX(x)dx=μE(x)=\int_{-\infty}^{+\infty} xf_X(x)dx=\muE(x)=∫−∞+∞xfX(x)dx=μ
\quad\quad随机变量的二阶原点矩是均方值。如果X(i)X(i)X(i)是在单位电阻上的随机电流,那么其上的功率为p=x2⋅1p=x^2\cdot 1p=x2⋅1,这时功率是随机变量X(i)X(i)X(i)的函数,那么其期望为
E(x2)=∫−∞+∞x2fX(x)dx=∫−∞+∞x2⋅1⋅fX(x)dx=∫−∞+∞p⋅fX(x)dx(0-8)E(x^2)=\int_{-\infty}^{+\infty} x^2f_X(x)dx=\int_{-\infty}^{+\infty} x^2\cdot 1\cdot f_X(x)dx=\int_{-\infty}^{+\infty} p \cdot f_X(x)dx\tag{0-8}E(x2)=∫−∞+∞x2fX(x)dx=∫−∞+∞x2⋅1⋅fX(x)dx=∫−∞+∞p⋅fX(x)dx(0-8)
因此,也称随机变量X(i)X(i)X(i)二阶原点矩为平均功率(此处的平均是指概率平均)。
\quad\quad定义kkk阶中点矩如下
E([x−E(x)]k)=∫−∞+∞[x−E(x)]kfX(x)dx(0-9)E([x-E(x)]^k)=\int_{-\infty}^{+\infty} [x-E(x)]^kf_X(x)dx\tag{0-9}E([x−E(x)]k)=∫−∞+∞[x−E(x)]kfX(x)dx(0-9)
\quad\quad随机变量X(i)X(i)X(i)二阶中心矩就是方差σX2=E([x−E(x)]2)=∫−∞+∞[x−E(x)]2fX(x)dx\sigma_X^2=E([x-E(x)]^2)=\int_{-\infty}^{+\infty} [x-E(x)]^2f_X(x)dxσX2=E([x−E(x)]2)=∫−∞+∞[x−E(x)]2fX(x)dx
以上是对一维随机变量,二维的随机变量的矩定义如下
\quad\quad联合原点矩:
E(xmyn)=∫−∞+∞xmynfXY(x,y)dx(0-10)E(x^my^n)=\int_{-\infty}^{+\infty} x^my^nf_{XY}(x,y)dx\tag{0-10}E(xmyn)=∫−∞+∞xmynfXY(x,y)dx(0-10)
\quad\quad联合中心距:
E[(x−μx)m(y−μy)n]=∫−∞+∞(x−μx)m(y−μy)nfXY(x,y)dx(0-11)E[(x-\mu_x)^m(y-\mu_y)^n]=\int_{-\infty}^{+\infty} (x-\mu_x)^m(y-\mu_y)^nf_{XY}(x,y)dx\tag{0-11}E[(x−μx)m(y−μy)n]=∫−∞+∞(x−μx)m(y−μy)nfXY(x,y)dx(0-11)
联合中心距在m=n=1m=n=1m=n=1时特别有用,称为协方差C(x,y)=E[(x−μx)(y−μy)]=E(xy)−μxμyC(x,y)=E[(x-\mu_x)(y-\mu_y)]=E(xy)-\mu_x\mu_yC(x,y)=E[(x−μx)(y−μy)]=E(xy)−μxμy
其意义为随机变量XXX和随机变量YYY取值存在的相互关联性,将其归一化,如下称为相关系数
ρXY=C(x,y)σXσY(0-12)\rho_{XY}=\frac{C(x,y)}{\sigma_X\sigma_Y}\tag{0-12}ρXY=σXσYC(x,y)(0-12)
0.4 随机变量的特征函数
\quad\quad在概率计算或者推理过程中,往往会用到以下函数
E(eiθx)=∫−∞+∞eiθxfX(x)dx(0-13)E(e^{i\theta x})=\int_{-\infty}^{+\infty} e^{i\theta x}f_X(x)dx\tag{0-13}E(eiθx)=∫−∞+∞eiθxfX(x)dx(0-13)
0.5 高数基础
\quad\quad分布积分:
∫abf(x)g′(x)dx=f(x)g(x)∣ab−∫abf′(x)g(x)dx(0-14)\int_{a}^{b} f(x)g^{'}(x)dx=f(x)g(x)|_a^b-\int_{a}^{b} f^{'}(x)g(x)dx\tag{0-14}∫abf(x)g′(x)dx=f(x)g(x)∣ab−∫abf′(x)g(x)dx(0-14)
\quad\quad积分换元:
∫abf(x)dx=∫αβf(φ(t))φ′(t)d(t)(0-15)\int_{a}^{b} f(x)dx=\int_{\alpha}^{\beta} f(\varphi (t))\varphi ^{'}(t)d(t)\tag{0-15}∫abf(x)dx=∫αβf(φ(t))φ′(t)d(t)(0-15)
\quad\quad特殊积分:
∫−∞+∞e−x2dx=π(0-16)\int_{-\infty}^{+\infty} e^{-x^2}dx=\sqrt{\pi}\tag{0-16}∫−∞+∞e−x2dx=π(0-16)
附录A 典型分布
一维正态分布(高斯分布):
概率密度函数:f(x)=1σ2πexp(−(x−μ)22σ2)(0-17)概率密度函数: \quad f(x)=\frac{1}{\sigma\sqrt {2\pi}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})\tag{0-17}概率密度函数:f(x)=σ2π1exp(−2σ2(x−μ)2)(0-17)
高斯分布在概率论、统计、随机过程等占据非常核心的位置,在工业界、物理界也是最常存在的一种随机变量分布,比如误差模型等。
指数分布
概率密度函数:f(x)={λexp(−λx),x≥00,x<0(0-18)概率密度函数: \quad f(x)=\begin{cases}\quad\lambda\exp(-\lambda x),\quad &x\ge0\\ \quad 0, &x\lt0 \end{cases}\tag{0-18}概率密度函数:f(x)={λexp(−λx),0,x≥0x<0(0-18)
指数分布是有解析形式的累积分布函数的,如下
累积分布函数:F(x)={1−exp(−λx),x≥00,x<0(0-19)累积分布函数: \quad F(x)=\begin{cases}\quad1-\exp(-\lambda x),\quad &x\ge0\\ \quad 0, &x\lt0 \end{cases}\tag{0-19}累积分布函数:F(x)={1−exp(−λx),0,x≥0x<0(0-19)
指数分布常用于电子元件的寿命预估中,而且指数分布有一个特点是无记忆性,即
P(T>t+s∣T>s)=P(T>t+s)P(T>s)=1−F(t+s)1−F(s)=exp(−λ(t+s))exp(−λs)=exp(−λt)(0-20)P(T\gt t+s|T\gt s)=\frac{P(T\gt t+s)}{P(T\gt s)}=\frac{1-F(t+s)}{1-F(s)}=\frac{\exp(-\lambda (t+s))}{\exp(-\lambda s)}=\exp(-\lambda t)\tag{0-20}P(T>t+s∣T>s)=P(T>s)P(T>t+s)=1−F(s)1−F(t+s)=exp(−λs)exp(−λ(t+s))=exp(−λt)(0-20)
当一个电子元件不失效的寿命为sss的情况下,继续过ttt时间不失效的概率和一个电子元件寿命为ttt不失效一样。
泊松分布
泊松分布是一类非常重要的离散型分布,其频率函数如下
频率函数:P(X=k)=λkk!exp(−λ)(0-21)频率函数:\quad P(X=k)=\frac{\lambda^k}{k!}\exp(-\lambda)\tag{0-21}频率函数:P(X=k)=k!λkexp(−λ)(0-21)
泊松分布的来源或者说其本质假设是(1)不同次的抽样试验发生的概率相同,(2)不同次的抽样试验发生彼此独立,(3)不同次的抽样试验中试验结果得是互斥的。
值得指出的是,泊松分布和指数分布有很大的联系,假设每单位时间长度发生A事件的次数概率服从参数为λ\lambdaλ泊松分布,那么当t=t0t=t_0t=t0时刻发生事件A,那么在(t0,t0+t)(t_0,t_0+t)(t0,t0+t)时间内发生A事件次数服从λt\lambda tλt泊松分布。那么在(t0,t0+t)(t_0,t_0+t)(t0,t0+t)时间内不发生事件A的概率为
P(X=0)=(λt)00!exp(−λt)=exp(−λt)(0-22)P(X=0)=\frac{(\lambda t)^0}{0!}\exp(-\lambda t)=\exp(-\lambda t)\tag{0-22}P(X=0)=0!(λt)0exp(−λt)=exp(−λt)(0-22)
因此在t=t0t=t_0t=t0时刻发生事件A的情况下,下一次事件A发生的时间至少为ttt的概率为
P(T>t)=exp(−λt)(0-23)P(T\gt t)=\exp(-\lambda t)\tag{0-23}P(T>t)=exp(−λt)(0-23)
因此下一次事件A发生的时间至多为ttt时间服从指数分布
P(T<t)=1−exp(−λt)(0-24)P(T\lt t)=1-\exp(-\lambda t)\tag{0-24}P(T<t)=1−exp(−λt)(0-24)
参考文献
[1] John A.Rice. Mathematical Statistics and Data Analysis(Third Edition)