概率的收敛性
四种收敛性
Intro
这个部分,我们将面对概率的收敛性问题,由于我们熟知:我们讨论的 Kolmogrov 概率公理化结构中的概率空间实际上就是测度空间 \((\Omega,\mathscr{F},P)\) ,在这里我们可以将测度空间和概率空间的概念一一对应:
- 全集:\(\Omega\) ;
- 可测集全体:事件域 \(\mathscr{F}\) ;
- 测度:概率 \(P\) ;(只不过此时我们已经规定 \(P(\Omega)=1\) ).
李贤平概率论当中,事件域一般限定为 \(\mathscr{B}\) ,也就是 Borel 集全体,虽然我们知道 Lebesgue 可测集全体真包含 Borel 集全体,但是实际上我们暂时并不需要探究这么怪异的集合,这是实变函数该做的事情.
此时,我们发现,讨论收敛性几乎成了一个几乎必然而然的事情,因为分布函数、分布密度函数都需要在可测函数的框架下讨论,因此我们引入四种收敛性. 注意,此时的随机变量我们已经可以当作一种可测函数来看待.
符号说明
不同于我们在实变函数中的符号:
- 首先改“几乎处处” \(\mathrm{a.e.}\) 为 \(\mathrm{a.s.}\) (almost surely)
- 弃用“几乎一致收敛” \(\mathrm{a.u.}\) .
- 依概率(测度)收敛不使用 \(\Rightarrow\) ,而使用 \(\overset{P}{\to}\) . (事实上在实变函数中也应该写为 \(\overset{m}{\to}\) 以指明为 Lebesgue 测度)
四种不同的收敛性
在讨论随机变量的收敛前,先补充“弱收敛”的函数收敛概念(不在我们讨论的随机变量收敛的范围内).
定义:弱收敛
若
$$ \lim_{n\to \infty} F_n(x) = F(x) $$
对于 \(F(x)\) 的每一个连续点都成立,那么就称 \(F_n(x)\) 弱收敛于 \(F(x)\),记为 \(F_n(x)\overset{w}{\to}F(x)\).
注意是连续点而非左连续点,这个在分布函数尤其注意.
定义:依分布收敛
设随机变量 \(X_n\) ,\(X\) 的分布函数分别为 \(F_n(x)\) 以及 \(F(x)\) ,如果 \(F_n(x)\overset{w}{\to}F(x)\) ,则称 \(\left\lbrace X_n \right\rbrace\) 依分布收敛于 \(X\) ,并记为 \(X_n\overset{L}{\to}X\) .
为什么这里要用“弱收敛”刻画?这是由于分布函数的间断点是可数的,所以不需要在间断点收敛也可以实现想要的收敛效果.
定义:依概率(测度)收敛
如果
$$ \lim_{n\to \infty} P \left\lbrace |X_n-X| \geqslant \varepsilon \right\rbrace = 0 $$
对于任意的 \(\varepsilon >0\) 成立,则称 \(\left\lbrace X_n \right\rbrace\) 依概率(测度)收敛于 \(X\) ,并记为 \(X_n \overset{P}{\to}X\).
就是依测度收敛,没什么好说的.
定义:\(r\) 阶收敛
设随机变量 \(X_n\) 以及 \(X\) ,有 \(E \left\lbrace |X_n|^r \right\rbrace < \infty\) ,\(E \left\lbrace |X|^r \right\rbrace < \infty\),其中 \(r>0\) 为常数. 如果
$$ \lim_{n\to \infty} E \left\lbrace |X_n-X|^r \right\rbrace = 0 $$
则称 \(\left\lbrace X_n \right\rbrace\) \(r\) 阶收敛于 \(X\) ,记为 \(X_n\overset{r}{\to}X\).
注意不要理解成依测度 \(r\) 收敛. 实际使用一般会写成常数.
此外,\(r=2\) 的时候为特殊情形,称为均方收敛.
定义:几乎处处收敛 (以概率 \(1\) 收敛)
设随机变量 \(X_n\) 和 \(X\) ,若
$$ P(\lim_{n\to \infty} X_n = X) =1 $$
则称 \(X_n\) 几乎处处收敛于 \(X\) (也称以概率 \(1\) 收敛),记为 \(X_n\overset{\mathrm{a.s.}}{\to} X\).
后续为符号的简洁写为 \(X_n\to X, \mathrm{a.s.}\) .
收敛性之间的关系
终极省流版
各收敛性关系的证明
省流版图像的箭头中,无需证明的是其中的 “几乎处处收敛” 到 “依概率测度收敛”,这是由实变函数的 Riesz 定理保证的. (Riesz 定理要求全集的测度小于 \(\infty\) ,但是概率空间里面根据 \(P(\Omega)=1\) ,显然满足这个条件)
我们依次证明剩下两个箭头:
T1
由 \(r\) 阶收敛推导出依概率收敛.
设 \(X_n\overset{r}{\to}X\) ,那么对于任意的 \(\varepsilon>0\) ,存在 \(N>0\) ,使得任意的 \(n>N\) 有
由 Markov 不等式有
对于任何 \(\delta>0\) 成立,那么在给定 \(\delta\) 的情形下,选择 \(\varepsilon_n = \delta^{r}\dfrac{1}{n}\) 即可证明命题. \(\square\)
T2
由依概率收敛导出依分布收敛.
对 \(x_1<x\) ,考虑如下的集合
利用次可加性有
而
故取极限有
同理对 \(x< x_2\) 有
提醒
老师这里反复强调“这里的同理没有那么显然”,感觉要考,留个心眼.
来自 2024 年期末考后的提醒:真的考了,只写同理不写过程是会扣分的。
同理:
考虑
此时利用次可加性
右式最后一项也利用依测度收敛,令 \(n\to \infty\) 有
也就有
令 \(x_1\uparrow x\) ,\(x_2 \downarrow x\) ,在 \(x\) 为连续点时有
因此 \(F_n(x)\overset{w}{\to}F(x)\) ,从而 \(\xi_n\overset{L}{\to}\xi\) . \(\square\)
反例
\(r\) 阶收敛 \(\not\to\) 几乎处处收敛
说明 \(r\) 阶收敛不一定能推出几乎处处收敛.
考虑概率测度空间 \((\Omega,\mathscr{F},P)\) ,其中 \(P\) 为Lebesgue 测度 (但是此时已指定 \(P(\Omega)=1\) ),\(\mathscr{F}\) 为全体 Lebesgue 可测集构成的 \(\sigma\) 代数,回忆实变函数中我们举出的“测度收敛不一定几乎处处收敛”的例子,也就是有 \([0,1]\) 的如下子区间:
此时的全集 \(\Omega = [0,1]\) ,上述区间对应的特征函数写为 \(\chi_{n,k}\) ,分别考虑
此时,对于 \(E(|\xi_k|^r)\) ,显然有 \(E(|\xi_k|^r) = 1\cdot P(I_{i,j})\) ,其中 \(\xi_k = \chi_{i,j}\) ,那么 \(E(|\xi_k|^r)\to 0\) ,也就是 \(r\) 阶收敛成立. 但是几乎处处收敛是不成立的. 这是由于对于 \(\xi_k(\omega)\) ,\(\omega\) 的任何取值都会让 \(\left\lbrace \xi_k(\omega) \right\rbrace\) 在 \(0,1\) 之间振荡. \(\square\)
依概率收敛 \(\not\to\) \(r\) 阶收敛
说明依概率收敛不能推出 \(r\) 阶收敛.
考虑反例
以及 \(\xi \equiv 0\) . 首先依概率收敛有
因此依概率收敛成立,但
其中 \(r \leqslant r_0\) ,从而 \(r\) 阶收敛不成立. \(\square\)
Remark.
事实上,上例也是几乎处处收敛不能推出 \(r\) 阶收敛的一个反例.
依分布收敛 \(\not\to\) 依概率收敛
说明依分布收敛不能推导出依概率收敛.
考虑反例
以及
那么 \(F_n(x) = F(x)\) ,显然依分布收敛,但是 \(|\xi_n-\xi| = 2\) 恒成立,于是依概率收敛不成立. \(\square\)
有条件的蕴涵 & 特殊的蕴涵
依概率收敛和依分布收敛在收敛到常数时等价
设 \(C\) 为常数,则
$$ \xi_n\xrightarrow{P}C\iff \xi_n\xrightarrow{L} C $$
仅需证明 \(\Leftarrow\) 方向,对任意 \(\varepsilon>0\) ,有
而我们不难知道:
可知仅有 \(C\) 是不连续点,并且这里注意 \(F(C-\varepsilon+0)\) 当中,\(+0\) 是极限,所以不会和 \(-\varepsilon\) 部分抵消,所以令 \(n\to \infty\) 有
\(\square\)
\(r+1\) 阶收敛 \(\to\) \(r\) 阶收敛
设随机变量序列 \(\left\lbrace \xi_n \right\rbrace\) \(r+1\) 阶收敛到 \(\xi\) ,证明其 \(r\) 阶收敛到 \(\xi\).
先证明如下的引理:
习题四 T29
记 \(a_k = E |\xi|^k\) ,若 \(a_n < \infty\) ,试证明
$$ \sqrt[k]{a_k} \leqslant \sqrt[k+1]{a_{k+1}},k=1,2,\cdots,n-1. $$
(引理证明结束,进入正式证明部分)
根据 \(\xi_n\) \(r+1\) 阶收敛于 \(\xi\) ,有
那么由于
令 \(n\to \infty\) 即可. \(\square\)
分布函数弱收敛的结论
这里补充一个反例:分布函数弱收敛的结果不一定会是分布函数,因此,在接下来的部分,尤其需要注意以下两点:
- 问题的结论如果是收敛到分布函数,那么就需要证明收敛结果是分布函数.
- 问题的条件中,函数列 \(\left\lbrace F_n \right\rbrace\) 是否是分布函数列,还是仅仅只是非降的函数列?
反例比较简单,考虑如下的分布函数列:
但是 \(\lim\limits_{n\to \infty}F_n(x) = 0\) ,这个结果显然不是分布函数.
Helly 第一定理
下面的引理揭示了:弱收敛可由稠子集上的处处收敛推导而来:
引理
设 \(\left\lbrace F_n(x) \right\rbrace_{n \geqslant 1}\) 为非降的函数列,设 \(D \subset \mathbb{R}^1\) 为稠集,若 \(\left\lbrace F_n(x) \right\rbrace\) 在 \(D\) 上处处有 \(\lim\limits_{n\to \infty} F_n(x) = F(x)\) ,则有
$$ F_n(x) \xrightarrow{w} F(x), (n\to \infty,x\in \mathbb{R}) $$
利用稠集的性质即可,对于任意的 \(x\in \mathbb{R}^1\) ,由于 \(D\) 为稠集,存在 \(x_1,x_2\in D\) 使得 \(x_1 \leqslant x \leqslant x_2\) ,此时有
令 \(n\to \infty\) 时,有
根据稠集的性质,存在点列 \(x_1^{(n)}\uparrow x\) ,以及 \(x_2^{(n)}\downarrow x\) ,那么有
此时,若 \(x\) 为连续点,那么 \(F_n(x)\) 在 \(n\to \infty\) 的上下极限相等,从而弱收敛结论成立. \(\square\)
定理:Helly 第一定理
任一一致有界的非降函数列 \(\left\lbrace F_n(x) \right\rbrace\) 必有子序列 \(\left\lbrace F_{n_k}(x) \right\rbrace\) 弱收敛于某有界非降函数 \(F(x)\).
要证明该定理,我们需要将 \(F(x)\) 构造出来,考虑利用刚才的引理,选取所需要的可数稠密集为有理数集 \(\mathbb{Q}\) ,考虑先构造出在 \(\mathbb{Q}\) 上的 \(G(x)\) .
列出所有有理数为 \(\left\lbrace r_k \right\rbrace\) ,我们有有界实数列 \(\left\lbrace F_n(r_k) \right\rbrace\) ,由 Bolzano-Weierstrass 定理可知必有收敛子列,取定 \(r_1\) 即有子列
此时我们有了 \(\left\lbrace F_{1,n}(x) \right\rbrace\) 这个一致有界的非降函数列,那么取定 \(r_2\) ,在 \(\left\lbrace F_{1,n}(r_2) \right\rbrace\) 又有子列使得
以此类推,我们有
其中,\(\left\lbrace F_{k,n}(x) \right\rbrace\) 是 \(\left\lbrace F_{k-1,n}(x) \right\rbrace\) 的子列,也就是说,后一行是前一行的子列,同时,在取 \(r_1\) 的时候,第一行及其后面的行都收敛到 \(G(r_1)\) ,取 \(r_k\) 时,第 \(k\) 行及其后面的行都收敛到 \(G(r_k)\) ,那么,取对角线元素设为:
此时,已经取出了 \(F_n(x)\) 的一个子列,其在有理点处的极限为 \(G(x)\) . 为扩张定义域,设
那么,根据引理,\(F_n(x)\) 弱收敛于 \(F(x)\) ,且 \(F(x)\) 为有界非降函数. \(\square\)
Remark.
证明方法:
- 利用引理,使用 \(\mathbb{Q}\) 或其他可数稠集构造实数列;
- 利用 Bolzano-Weierstrass 定理构造多个子列收敛于不同点处的值;
- 对角线方法,取对角线部分收敛到合适的函数.
需要注意的是,尽管 \(F(x)\) 不一定为分布函数(不一定左连续),但是在选取 \(F(x)\) 时,实际上对于 \(F(x)\) 的非连续点,可以将其取为左连续(这是由于有界非降函数间断点仅为第一类间断点). 故 \(F(x)\) 可以取为分布函数.
Helly 第二定理及其推广
Helly 第二定理是一种积分换序的定理,它的表述如下:
定理:Helly 第二定理
设 \(f(x)\) 是 \([a,b]\) 上的连续函数,又 \(\left\lbrace F_n(x) \right\rbrace\) 是在 \([a,b]\) 上弱收敛于 \(F(x)\) 的一致有界非降函数列,且 \(a,b\) 均为 \(F(x)\) 的连续点,则有
$$ \lim_{n\to \infty} \int_a^b f(x) \mathrm{d}F_n(x) = \int_a^b f(x) \mathrm{d}F(x) $$
注意
相比于控制收敛定理,Helly 第二定理要的条件实际上比较苛刻,一致有界+非降+连续+弱收敛.
定理:推广的 Helly 第二定理
设 \(f(x)\) 在 \(\mathbb{R}\) 上连续有界,一致有界非降函数列 \(\left\lbrace F_n(x) \right\rbrace\) 在 \((-\infty,+\infty)\) 上弱收敛于 \(F(x)\) . 则有
$$ \lim_{n\to \infty} \int_{-\infty}^{+\infty} f(x) \mathrm{d}F_n(x) = \int_{-\infty}^{+\infty} f(x) \mathrm{d}F(x) $$
连续性定理
对于正极限定理,教材上的证明稍微有些问题,问题出在后面的一致性问题上,教材一带而过实际上是不太好的,因为证明真的出现了问题. 这里给出一个外链指向香蕉空间里面相对合适的证明. 正极限定理一致性部分的证明.
下面讨论逆极限定理,这个在往年考过原题原证明.
定理:逆极限定理
设特征函数列 \(\left\lbrace f_n \right\rbrace_{n \geqslant 1}\) 收敛于某个函数 \(f(t)\) ,且 \(f(t)\) 在 \(t=0\) 连续,则相应的分布函数列 \(\left\lbrace F_n(x) \right\rbrace\) 弱收敛于某一个分布函数 \(F(x)\) ,而且 \(f(t)\) 是 \(F(x)\) 的特征函数.
需要证明两个结论:
- 分布函数弱收敛到分布函数 \(F(x)\) ;
- \(f(t)\) 为 \(F(x)\) 的特征函数.
对于第一个结论,分布函数列 \(\left\lbrace F_n(x) \right\rbrace\) 为一致有界的非降函数列,则由 Helly 第一定理可知存在子序列 \(\left\lbrace F_{n_k}(x) \right\rbrace\) 弱收敛于一个非降函数 \(F(x)\) . 此时我们又要证明两点:其一是证明整个序列弱收敛于 \(F(x)\) ,其二是 \(F(x)\) 为分布函数.
为了证明 \(F(x)\) 为分布函数,需要验证:
- 左连续;
- \(F(-\infty) = 0\) ,\(F(+\infty)=1\) .
- \(0 \leqslant F(x) \leqslant 1\) .
其中,左连续由 Helly 第一定理的证明可修改得到,有界性由 Helly 第一定理的证明可知,只需验证第二点. 利用反证法,假设
任取 \(\varepsilon < 1- \delta\) ,特征函数在取 \(0\) 时取值为 \(1\) ,因此根据点态收敛,\(f(0)=1\) ,根据在 \(0\) 处的连续性,此时其积分平均值收敛于 \(1\) ,即
因此令 \(x_0\) 充分小,不妨取为足够小的 \(\tau\) 可使得
暂且放下 (1) 不管,下面考虑构造与 (1) 的矛盾,考虑子序列 \(\left\lbrace f_{n_k} \right\rbrace\) ,无界区间我们相对难处理,因此取 \(X\) ,分 \(|x| >X\) 和 \(|x| \leqslant X\) 的情况讨论,有
我们需要分段估计,考虑 \(f_{n_k}\) 的具体表达式:
此时代入:
结合 (2) ,只需分段估计内部的积分即可,\(|x|\leqslant X\) 时,
\(|x| > X\) 时,
此时有
此时对 \(\delta_k\) 进行估值,先取定 \(X \geqslant \dfrac{4}{\tau \varepsilon}\) ,然后可取得足够大的 \(K\) 使得 \(k \geqslant K\) 时有
(其实 \(\delta_k \leqslant \delta\) 是比较显然的,为了结果的好看取大一点)
故代入 (3) 有
因此
此时,由于特征函数在 \(0\) 处的局部有界性,利用有界收敛定理 (控制函数为常数的控制收敛定理)取 \(k\to \infty\) 可得
这与 (1) 矛盾,从而我们证明了 \(F(x)\) 是分布函数.
然后再证明 \(\left\lbrace F_n \right\rbrace\) 也是弱收敛于 \(F(x)\) 的,假设不然,存在一个连续点 \(x_0\) 使得 \(F_n(x_0)\not\to F(x_0)\) ,根据有界序列必有收敛子列,存在子列 \(\left\lbrace F_{m_k}(x_0) \right\rbrace\) 收敛,设其极限为 \(F^*(x_0)\) .
那么在 \(x_0\) 处至少有 \(F^*(x_0) \neq F(x_0)\) ,根据 Helly 第一定理,\(\left\lbrace F_{m_k}(x) \right\rbrace\) 可以选取子序列 \(\left\lbrace F_{m_{k_l}}(x) \right\rbrace\) 弱收敛到 \(F^*(x)\) ,但是 \(F^*(x)\) 也应该是分布函数,其特征函数为 \(f(t)\) ,根据特征函数的唯一性定理,这出现了矛盾.
最后只剩下第二个结论:\(f(t)\) 为 \(F(x)\) 的特征函数,我们已证明 \(F(x)\) 为分布函数,因此直接利用正极限定理即可证明 \(f(t)\) 为 \(F(x)\) 的特征函数. \(\square\)