High-Dimensional Probability 第一章笔记


书名:High-Dimensional Probability An Introduction with Applications in Data Science
. 这一张章主要介绍概率论的一些基础知识。笔记中只简单记录结论,证明过程可以参阅原书

1.1基础概念:

  • 随机变量X,期望(均值)$\mathbb{E}(x)$,方差$Var(x)=\mathbb{E}(X-\mathbb{E}(X))^2$
  • 矩母生成函数$M_X(t) = \mathbb{E}[e^{tX}],t\in\mathbb R$。更多信息参考这篇博客
  • 对于$p>0$,$X$的p阶矩为$\mathbb{E}X^p$,p阶绝对矩为$\mathbb{E}|X|^p$
  • $X$的$L^p$范数为p阶绝对矩开p次方,即$||X||_{L^p}=(\mathbb{E}X^p)^{\frac{1}{p}}$
  • $X$的无穷范数被定义为$|X|$的本质上确界$|X|_{L^{\infty}}=\operatorname{ess} \sup |X|$
  • 对于一个概率空间$(\Omega,\Sigma,\mathbb P)$和一个固定的$p$,经典向量空间$L^p=L^p(\Omega,\Sigma,\mathbb P)$包含$\Omega$中所有范数有穷的随机变量$X$,即$L^p=\left\{X:|X|_{L^p}<\infty\right\}$
  • 如果$p\in [1,\infty]$,则$|X|_{L^p}$是一个范数且$L^p$是一个巴拿赫(Banach)空间。如果p小于1,则三角不等式失效且$||X||_{L^p}$不是一个范数。
  • 如果p=2,则$L^2$同时是一个希尔伯特空间,该空间中的内积和协方差为:$\langle X, Y\rangle_{L^2}=\mathbb{E} X Y$,$\operatorname{cov}(X, Y)=\mathbb{E}(X-\mathbb{E} X)(Y-\mathbb{E} Y)=\langle X-\mathbb{E} X, Y-\mathbb{E} Y\rangle_{L^2}$
  • 当我们把希尔伯特空间中的随机变量看成是空间中的向量时,上面的公式说明了$X-\mathbb E(X)$和$Y-\mathbb E(Y)$越匹配,他们的协方差和内积就越大。

1.2一些基础不等式

詹森不等式(Jensen’s inequality):对于任意一个随机变量$X$和一个凸函数$\varphi:\mathbb R \to \mathbb R$,都有:

$||X||_{}L^p$是一个关于p的单调上升函数,即:

闵可夫斯基不等式(Minkowski’s inequality):对于任意$p\in[1,\infty]$和随机变量$X,Y\in L^p$,有:

柯西-施瓦兹不等式(Cauchy-Schwarz):对于任意的随机变量$X,Y\in L^2$,有:

更一般的,根据赫尔德不等式,如果$p,q\in(1,\infty)$是共轭的,即$1/p+1/q=1$,有:

当$p=1,q=\infty$时同样成立

对于一个随机变量X,它的分布由累积分布函数(CDF)决定:

在处理一些问题(关于期望或者矩)时,使用1-CDF会更方便,即$\mathbb P(X>t)=1-F_X(t)$

引理1.2.1:$X$是一个非负的随机变量,有:

练习1.2.2(引理1.2.1的泛化版):对于任意一个随机变量,有:

练习1.2.3:$X$是一个随机变量,$p\in(0,\infty)$,当下面的右式有穷时有:

马尔可夫不等式(提供了CDF尾部的bound):对于任意一个非负随机变量$X$和一个$t>0$,有:

切比雪夫不等式(马尔可夫不等式的结论之一):对于任意一个随机变量$X$和一个$t>0$,有:

1.3 极限定理

定理1.3.1 大数定理:对于均值为$\mu$的独立同分布(i.i.d.)随机变量序列$X_1,X_2,\dots$,他们的和$S_N=\sum X_i$,当$N\to\infty$时,有:

原因是i.i.d.的随机变量序列满足$Var(\sum X_i)=\sum Var(X_i)$,两边同除以$N^2$有$Var(\frac{1}{N}\sum X_i)=\frac{\sigma^2}{N^2}$。当$N\to\infty$,该式趋近于0,故随机变量序列的均值强趋近于$\mu$。

定理1.3.2 中心极限定理:$X_1,X_2,\dots$是i.i.d.的随机变量序列,均值和方差分别为$\mu,\sigma$。考虑$S_N=X_1+\dots+X_N$,并对其进行标准化:

当$N\to\infty$,在分布上$Z_N\to N(0,1)$
可以使用CDF尾部表示为,当$N\to\infty$时,有:

其中$g\sim N(0,1)$

练习1.3.3:令i.i.d.的随机变量序列$X_i$,均值为$\mu$且方差有穷。证明:

定理1.3.4泊松极限定理:令$X_{N,i},1\le i\le N$是独立随机变量,服从伯努利分布$Ber(p_{N,i})$。令$S_N=\sum_{i=1}^{N}X_{N,i}$,假设$N\to \infty$时有:

则当$N\to\infty$时,有:


文章作者: wangxh
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 wangxh !
  目录