概率的收敛性

四种收敛性

Intro

这个部分，我们将面对概率的收敛性问题，由于我们熟知：我们讨论的 Kolmogrov 概率公理化结构中的概率空间实际上就是测度空间 $(\Omega,\mathscr{F},P)$ ，在这里我们可以将测度空间和概率空间的概念一一对应：

全集：$\Omega$ ；
可测集全体：事件域 $\mathscr{F}$ ；
测度：概率 $P$ ；（只不过此时我们已经规定 $P(\Omega)=1$ ）.

李贤平概率论当中，事件域一般限定为 $\mathscr{B}$ ，也就是 Borel 集全体，虽然我们知道 Lebesgue 可测集全体真包含 Borel 集全体，但是实际上我们暂时并不需要探究这么怪异的集合，这是实变函数该做的事情.

此时，我们发现，讨论收敛性几乎成了一个几乎必然而然的事情，因为分布函数、分布密度函数都需要在可测函数的框架下讨论，因此我们引入四种收敛性. 注意，此时的随机变量我们已经可以当作一种可测函数来看待.

符号说明

不同于我们在实变函数中的符号：

首先改“几乎处处” $\mathrm{a.e.}$ 为 $\mathrm{a.s.}$ (almost surely)
弃用“几乎一致收敛” $\mathrm{a.u.}$ .
依概率（测度）收敛不使用 $\Rightarrow$ ，而使用 $\overset{P}{\to}$ . （事实上在实变函数中也应该写为 $\overset{m}{\to}$ 以指明为 Lebesgue 测度）

四种不同的收敛性

在讨论随机变量的收敛前，先补充“弱收敛”的函数收敛概念（不在我们讨论的随机变量收敛的范围内）.

定义：弱收敛

若
$$ \lim_{n\to \infty} F_n(x) = F(x) $$
对于 $F(x)$ 的每一个连续点都成立，那么就称 $F_n(x)$ 弱收敛于 $F(x)$，记为 $F_n(x)\overset{w}{\to}F(x)$.

注意是连续点而非左连续点，这个在分布函数尤其注意.

定义：依分布收敛

设随机变量 $X_n$ ，$X$ 的分布函数分别为 $F_n(x)$ 以及 $F(x)$ ，如果 $F_n(x)\overset{w}{\to}F(x)$ ，则称 $\left\lbrace X_n \right\rbrace$ 依分布收敛于 $X$ ，并记为 $X_n\overset{L}{\to}X$ .

为什么这里要用“弱收敛”刻画？这是由于分布函数的间断点是可数的，所以不需要在间断点收敛也可以实现想要的收敛效果.

定义：依概率（测度）收敛

如果
$$ \lim_{n\to \infty} P \left\lbrace |X_n-X| \geqslant \varepsilon \right\rbrace = 0 $$
对于任意的 $\varepsilon >0$ 成立，则称 $\left\lbrace X_n \right\rbrace$ 依概率（测度）收敛于 $X$ ，并记为 $X_n \overset{P}{\to}X$.

就是依测度收敛，没什么好说的.

定义：$r$ 阶收敛

设随机变量 $X_n$ 以及 $X$ ，有 $E \left\lbrace |X_n|^r \right\rbrace < \infty$ ，$E \left\lbrace |X|^r \right\rbrace < \infty$，其中 $r>0$ 为常数. 如果
$$ \lim_{n\to \infty} E \left\lbrace |X_n-X|^r \right\rbrace = 0 $$
则称 $\left\lbrace X_n \right\rbrace$ $r$ 阶收敛于 $X$ ，记为 $X_n\overset{r}{\to}X$.

注意不要理解成依测度 $r$ 收敛. 实际使用一般会写成常数.

此外，$r=2$ 的时候为特殊情形，称为均方收敛.

定义：几乎处处收敛（以概率 $1$ 收敛）

设随机变量 $X_n$ 和 $X$ ，若
$$ P(\lim_{n\to \infty} X_n = X) =1 $$
则称 $X_n$ 几乎处处收敛于 $X$ （也称以概率 $1$ 收敛），记为 $X_n\overset{\mathrm{a.s.}}{\to} X$.

后续为符号的简洁写为 $X_n\to X, \mathrm{a.s.}$ .

收敛性之间的关系

终极省流版

各收敛性关系的证明

省流版图像的箭头中，无需证明的是其中的 “几乎处处收敛” 到 “依概率测度收敛”，这是由实变函数的 Riesz 定理保证的. （Riesz 定理要求全集的测度小于 $\infty$ ，但是概率空间里面根据 $P(\Omega)=1$ ，显然满足这个条件）

我们依次证明剩下两个箭头：

T1

由 $r$ 阶收敛推导出依概率收敛.

设 $X_n\overset{r}{\to}X$ ，那么对于任意的 $\varepsilon>0$ ，存在 $N>0$ ，使得任意的 $n>N$ 有

\[ E \left\lbrace |X_n-X|^r \right\rbrace < \varepsilon \]

由 Markov 不等式有

\[ P \left\lbrace |X_n -X| \geqslant \delta \right\rbrace \leqslant \dfrac{E \left\lbrace |X_n-X|^r \right\rbrace}{\delta^r} \]

对于任何 $\delta>0$ 成立，那么在给定 $\delta$ 的情形下，选择 $\varepsilon_n = \delta^{r}\dfrac{1}{n}$ 即可证明命题. $\square$

T2

由依概率收敛导出依分布收敛.

对 $x_1<x$ ，考虑如下的集合

\[ \begin{aligned} \left\lbrace \xi< x_1 \right\rbrace & = \left\lbrace \xi_n<x, \xi <x_1 \right\rbrace \cup \left\lbrace \xi_n<x , \xi \geqslant x_1 \right\rbrace \\ & \subset \left\lbrace \xi_n < x \right\rbrace \cup \left\lbrace \xi_n< x, \xi \geqslant x_1 \right\rbrace \end{aligned} \]

利用次可加性有

\[ F(x_1) \leqslant F_n(x) + P(\xi_n< x, \xi \geqslant x_1) \]

而

\[ P(\xi_n< x, \xi \geqslant x_1) \leqslant P(|\xi-\xi_n| \geqslant x_1-x) \to 0 \]

故取极限有

\[ F(x) \leqslant \varliminf_{n\to \infty} F_n(x) \]

同理对 $x< x_2$ 有

\[ \varlimsup_{n\to \infty} F_n(x) \leqslant F(x_2) \]

提醒

老师这里反复强调“这里的同理没有那么显然”，感觉要考，留个心眼.

来自 2024 年期末考后的提醒：真的考了，只写同理不写过程是会扣分的。

同理：
考虑

\[ \begin{aligned} \left\lbrace \xi \geqslant x_2 \right\rbrace & = \left\lbrace \xi \geqslant x_2, \xi_n < x \right\rbrace \cup \left\lbrace \xi \geqslant x_2, \xi_n \geqslant x \right\rbrace \\ & \subset \left\lbrace \xi \geqslant x_2 , \xi_n < x \right\rbrace \cup \left\lbrace \xi_n \geqslant x \right\rbrace \end{aligned} \]

此时利用次可加性

\[ 1- F(x_2) \leqslant 1-F_n(x) + P \left\lbrace \xi \geqslant x_2, \xi_n <x \right\rbrace \]

右式最后一项也利用依测度收敛，令 $n\to \infty$ 有

\[ \varlimsup_{n\to \infty} F_n(x) \leqslant F(x_2) \]

也就有

\[ F(x_1) \leqslant\varliminf_{n\to \infty} F_n(x) \leqslant \varlimsup_{n\to \infty} F_n(x) \leqslant F(x_2) \]

令 $x_1\uparrow x$ ，$x_2 \downarrow x$ ，在 $x$ 为连续点时有

\[ \varliminf_{n\to \infty} F_n(x) = \varlimsup_{n\to \infty} F_n(x) \]

因此 $F_n(x)\overset{w}{\to}F(x)$ ，从而 $\xi_n\overset{L}{\to}\xi$ . $\square$

反例

$r$ 阶收敛 $\not\to$ 几乎处处收敛

说明 $r$ 阶收敛不一定能推出几乎处处收敛.

考虑概率测度空间 $(\Omega,\mathscr{F},P)$ ，其中 $P$ 为Lebesgue 测度 （但是此时已指定 $P(\Omega)=1$ ），$\mathscr{F}$ 为全体 Lebesgue 可测集构成的 $\sigma$ 代数，回忆实变函数中我们举出的“测度收敛不一定几乎处处收敛”的例子，也就是有 $[0,1]$ 的如下子区间：

\[ I_{n,k} = \left[\dfrac{k-1}{n},\dfrac{k}{n}\right], n=1,2,\cdots;k=1,2,\cdots,n \]

此时的全集 $\Omega = [0,1]$ ，上述区间对应的特征函数写为 $\chi_{n,k}$ ，分别考虑

\[ \begin{aligned} & \xi = 0, \\ & \xi_1 = \chi_{1,1}, \\ & \xi_2 = \chi_{2,1} , \xi_3 = \chi_{2,2}, \\ & \quad \vdots \end{aligned} \]

此时，对于 $E(|\xi_k|^r)$ ，显然有 $E(|\xi_k|^r) = 1\cdot P(I_{i,j})$ ，其中 $\xi_k = \chi_{i,j}$ ，那么 $E(|\xi_k|^r)\to 0$ ，也就是 $r$ 阶收敛成立. 但是几乎处处收敛是不成立的. 这是由于对于 $\xi_k(\omega)$ ，$\omega$ 的任何取值都会让 $\left\lbrace \xi_k(\omega) \right\rbrace$ 在 $0,1$ 之间振荡. $\square$

依概率收敛 $\not\to$ $r$ 阶收敛

说明依概率收敛不能推出 $r$ 阶收敛.

考虑反例

\[ \xi_n = \begin{cases} n^{\frac{1}{r}} , & 0 < \omega \leqslant \dfrac{1}{n} \\ 0, & \dfrac{1}{n} < \omega \leqslant 1 \end{cases} \]

以及 $\xi \equiv 0$ . 首先依概率收敛有

\[ \lim_{n\to \infty} P(|\xi_n -\xi | > \varepsilon) = \lim_{n\to \infty} P(|\xi_n| > \varepsilon) \leqslant P\left(\xi_n = n^{\frac{1}{r}}\right) = \frac{1}{n} \to 0 \]

因此依概率收敛成立，但

\[ E|\xi_n-\xi|^{r_0} = E|\xi_n|^{r_0} = \frac{1}{n} (n^{\frac{1}{r}})^{r_0} >1 \]

其中 $r \leqslant r_0$ ，从而 $r$ 阶收敛不成立. $\square$

Remark.

事实上，上例也是几乎处处收敛不能推出 $r$ 阶收敛的一个反例.

依分布收敛 $\not\to$ 依概率收敛

说明依分布收敛不能推导出依概率收敛.

考虑反例

\[ \xi_n \sim \begin{pmatrix}-1 & 1 \\ \dfrac{1}{2} & \dfrac{1}{2}\end{pmatrix}, \forall n \]

以及

\[ \xi = - \xi_n \]

那么 $F_n(x) = F(x)$ ，显然依分布收敛，但是 $|\xi_n-\xi| = 2$ 恒成立，于是依概率收敛不成立. $\square$

有条件的蕴涵 & 特殊的蕴涵

依概率收敛和依分布收敛在收敛到常数时等价

设 $C$ 为常数，则
$$ \xi_n\xrightarrow{P}C\iff \xi_n\xrightarrow{L} C $$

仅需证明 $\Leftarrow$ 方向，对任意 $\varepsilon>0$ ，有

\[ \begin{aligned} P (|\xi_n-C| > \varepsilon) & = P(\xi_n > C+ \varepsilon)+ P(\xi_n < C- \varepsilon)\\ & = 1- F_n(C+ \varepsilon +0) + F_n(C- \varepsilon) \\ & = 1- F_n(C+ \varepsilon) + F_n(C-\varepsilon+0) \end{aligned} \]

而我们不难知道：

\[ F(x) = \begin{cases} 0, & x \leqslant C \\ 1, & x>C \end{cases} \]

可知仅有 $C$ 是不连续点，并且这里注意 $F(C-\varepsilon+0)$ 当中，$+0$ 是极限，所以不会和 $-\varepsilon$ 部分抵消，所以令 $n\to \infty$ 有

\[ P(|\xi_n -C| > \varepsilon) = 1-1+0 = 0 \]

$\square$

$r+1$ 阶收敛 $\to$ $r$ 阶收敛

设随机变量序列 $\left\lbrace \xi_n \right\rbrace$ $r+1$ 阶收敛到 $\xi$ ，证明其 $r$ 阶收敛到 $\xi$.

先证明如下的引理：

习题四 T29

记 $a_k = E |\xi|^k$ ，若 $a_n < \infty$ ，试证明
$$ \sqrt[k]{a_k} \leqslant \sqrt[k+1]{a_{k+1}},k=1,2,\cdots,n-1. $$

（引理证明结束，进入正式证明部分）
根据 $\xi_n$ $r+1$ 阶收敛于 $\xi$ ，有

\[ \lim_{n\to \infty} E(|\xi_n - \xi|^{r+1}) = 0 \]

那么由于

\[ [E(|\xi_n - \xi|^r)]^{1+ \frac{1}{r}} \leqslant E(|\xi_n - \xi|^{r+1}) \]

令 $n\to \infty$ 即可. $\square$

分布函数弱收敛的结论

这里补充一个反例：分布函数弱收敛的结果不一定会是分布函数，因此，在接下来的部分，尤其需要注意以下两点：

问题的结论如果是收敛到分布函数，那么就需要证明收敛结果是分布函数.
问题的条件中，函数列 $\left\lbrace F_n \right\rbrace$ 是否是分布函数列，还是仅仅只是非降的函数列？

反例比较简单，考虑如下的分布函数列：

\[ F_n(x) = \begin{cases} 0, & x \leqslant n \\ 1, & x>n \end{cases} \]

但是 $\lim\limits_{n\to \infty}F_n(x) = 0$ ，这个结果显然不是分布函数.

Helly 第一定理

下面的引理揭示了：弱收敛可由稠子集上的处处收敛推导而来：

引理

设 $\left\lbrace F_n(x) \right\rbrace_{n \geqslant 1}$ 为非降的函数列，设 $D \subset \mathbb{R}^1$ 为稠集，若 $\left\lbrace F_n(x) \right\rbrace$ 在 $D$ 上处处有 $\lim\limits_{n\to \infty} F_n(x) = F(x)$ ，则有
$$ F_n(x) \xrightarrow{w} F(x), (n\to \infty,x\in \mathbb{R}) $$

利用稠集的性质即可，对于任意的 $x\in \mathbb{R}^1$ ，由于 $D$ 为稠集，存在 $x_1,x_2\in D$ 使得 $x_1 \leqslant x \leqslant x_2$ ，此时有

\[ F_n(x_1) \leqslant F_n(x) \leqslant F_n(x_2) \]

令 $n\to \infty$ 时，有

\[ F(x_1) \leqslant \varliminf_{n\to \infty} F_n(x) \leqslant \varlimsup_{n\to \infty} F_n(x) \leqslant F(x_2) \]

根据稠集的性质，存在点列 $x_1^{(n)}\uparrow x$ ，以及 $x_2^{(n)}\downarrow x$ ，那么有

\[ F(x-0) \leqslant \varliminf_{n\to \infty} F_n(x) \leqslant \varlimsup_{n\to \infty} F_n(x) \leqslant F(x+0) \]

此时，若 $x$ 为连续点，那么 $F_n(x)$ 在 $n\to \infty$ 的上下极限相等，从而弱收敛结论成立. $\square$

定理：Helly 第一定理

任一一致有界的非降函数列 $\left\lbrace F_n(x) \right\rbrace$ 必有子序列 $\left\lbrace F_{n_k}(x) \right\rbrace$ 弱收敛于某有界非降函数 $F(x)$.

要证明该定理，我们需要将 $F(x)$ 构造出来，考虑利用刚才的引理，选取所需要的可数稠密集为有理数集 $\mathbb{Q}$ ，考虑先构造出在 $\mathbb{Q}$ 上的 $G(x)$ .

列出所有有理数为 $\left\lbrace r_k \right\rbrace$ ，我们有有界实数列 $\left\lbrace F_n(r_k) \right\rbrace$ ，由 Bolzano-Weierstrass 定理可知必有收敛子列，取定 $r_1$ 即有子列

\[ \lim_{n\to \infty}F_{1,n}(r_1) = G(r_1) \]

此时我们有了 $\left\lbrace F_{1,n}(x) \right\rbrace$ 这个一致有界的非降函数列，那么取定 $r_2$ ，在 $\left\lbrace F_{1,n}(r_2) \right\rbrace$ 又有子列使得

\[ \lim_{n\to \infty} F_{2,n}(r_2) = G(r_2) \]

以此类推，我们有

\[ \begin{array}{} F_{1,1}(x) & F_{1,2}(x) & \cdots & F_{1,n}(x) & \cdots \\ F_{2,1}(x) & F_{2,2}(x) & \cdots & F_{2,n}(x) & \cdots \\ \vdots & \vdots & ~ & \vdots & ~ \\ F_{n,1}(x) & F_{n,2}(x) & \cdots & F_{n,n}(x) & \cdots \\ \vdots & \vdots & ~ & \vdots \end{array} \]

其中，$\left\lbrace F_{k,n}(x) \right\rbrace$ 是 $\left\lbrace F_{k-1,n}(x) \right\rbrace$ 的子列，也就是说，后一行是前一行的子列，同时，在取 $r_1$ 的时候，第一行及其后面的行都收敛到 $G(r_1)$ ，取 $r_k$ 时，第 $k$ 行及其后面的行都收敛到 $G(r_k)$ ，那么，取对角线元素设为：

\[ \lim_{n\to \infty} F_{n,n}(x) = G(x), x\in \mathbb{Q} \]

此时，已经取出了 $F_n(x)$ 的一个子列，其在有理点处的极限为 $G(x)$ . 为扩张定义域，设

\[ F(x) = \sup_{r_k \leqslant x} G(r_k) \]

那么，根据引理，$F_n(x)$ 弱收敛于 $F(x)$ ，且 $F(x)$ 为有界非降函数. $\square$

Remark.

证明方法：

利用引理，使用 $\mathbb{Q}$ 或其他可数稠集构造实数列；
利用 Bolzano-Weierstrass 定理构造多个子列收敛于不同点处的值；
对角线方法，取对角线部分收敛到合适的函数.

需要注意的是，尽管 $F(x)$ 不一定为分布函数（不一定左连续），但是在选取 $F(x)$ 时，实际上对于 $F(x)$ 的非连续点，可以将其取为左连续（这是由于有界非降函数间断点仅为第一类间断点）. 故 $F(x)$ 可以取为分布函数.

Helly 第二定理及其推广

Helly 第二定理是一种积分换序的定理，它的表述如下：

定理：Helly 第二定理

设 $f(x)$ 是 $[a,b]$ 上的连续函数，又 $\left\lbrace F_n(x) \right\rbrace$ 是在 $[a,b]$ 上弱收敛于 $F(x)$ 的一致有界非降函数列，且 $a,b$ 均为 $F(x)$ 的连续点，则有
$$ \lim_{n\to \infty} \int_a^b f(x) \mathrm{d}F_n(x) = \int_a^b f(x) \mathrm{d}F(x) $$

注意

相比于控制收敛定理，Helly 第二定理要的条件实际上比较苛刻，一致有界+非降+连续+弱收敛.

定理：推广的 Helly 第二定理

设 $f(x)$ 在 $\mathbb{R}$ 上连续有界，一致有界非降函数列 $\left\lbrace F_n(x) \right\rbrace$ 在 $(-\infty,+\infty)$ 上弱收敛于 $F(x)$ . 则有
$$ \lim_{n\to \infty} \int_{-\infty}^{+\infty} f(x) \mathrm{d}F_n(x) = \int_{-\infty}^{+\infty} f(x) \mathrm{d}F(x) $$

连续性定理

对于正极限定理，教材上的证明稍微有些问题，问题出在后面的一致性问题上，教材一带而过实际上是不太好的，因为证明真的出现了问题. 这里给出一个外链指向香蕉空间里面相对合适的证明. 正极限定理一致性部分的证明.

下面讨论逆极限定理，这个在往年考过原题原证明.

定理：逆极限定理

设特征函数列 $\left\lbrace f_n \right\rbrace_{n \geqslant 1}$ 收敛于某个函数 $f(t)$ ，且 $f(t)$ 在 $t=0$ 连续，则相应的分布函数列 $\left\lbrace F_n(x) \right\rbrace$ 弱收敛于某一个分布函数 $F(x)$ ，而且 $f(t)$ 是 $F(x)$ 的特征函数.

需要证明两个结论：

分布函数弱收敛到分布函数 $F(x)$ ；
$f(t)$ 为 $F(x)$ 的特征函数.

对于第一个结论，分布函数列 $\left\lbrace F_n(x) \right\rbrace$ 为一致有界的非降函数列，则由 Helly 第一定理可知存在子序列 $\left\lbrace F_{n_k}(x) \right\rbrace$ 弱收敛于一个非降函数 $F(x)$ . 此时我们又要证明两点：其一是证明整个序列弱收敛于 $F(x)$ ，其二是 $F(x)$ 为分布函数.

为了证明 $F(x)$ 为分布函数，需要验证：

左连续；
$F(-\infty) = 0$ ，$F(+\infty)=1$ .
$0 \leqslant F(x) \leqslant 1$ .

其中，左连续由 Helly 第一定理的证明可修改得到，有界性由 Helly 第一定理的证明可知，只需验证第二点. 利用反证法，假设

\[ \delta = F(\infty) - F(-\infty) < 1 \]

任取 $\varepsilon < 1- \delta$ ，特征函数在取 $0$ 时取值为 $1$ ，因此根据点态收敛，$f(0)=1$ ，根据在 $0$ 处的连续性，此时其积分平均值收敛于 $1$ ，即

\[ \lim_{x_0\to 0} \dfrac{1}{2x_0}\left|\int_{-x_0}^{x_0} f(t) \mathrm{d}t\right| = f(0) =1 \]

因此令 $x_0$ 充分小，不妨取为足够小的 $\tau$ 可使得

\[ \dfrac{1}{2 \tau}\left|\int_{-\tau}^{\tau} f(t) \mathrm{d}t\right| > 1- \dfrac{\varepsilon}{2} > \delta+ \dfrac{\varepsilon}{2} \tag{1} \]

暂且放下 (1) 不管，下面考虑构造与 (1) 的矛盾，考虑子序列 $\left\lbrace f_{n_k} \right\rbrace$ ，无界区间我们相对难处理，因此取 $X$ ，分 $|x| >X$ 和 $|x| \leqslant X$ 的情况讨论，有

\[ \left|\int_{-\tau}^{\tau} f_{n_k}(t) \mathrm{d}t\right| \leqslant \left|\int_{|x| \leqslant X} f_{n_k}(t)\mathrm{d}t\right|+ \left|\int_{|x| > X} f_{n_k}(t) \mathrm{d}t\right| \tag{2} \]

我们需要分段估计，考虑 $f_{n_k}$ 的具体表达式：

\[ f_{n_k}(t) = \int_{-\infty}^{+\infty} \mathrm{e}^{\mathrm{i}tx} \mathrm{d} F_{n_k}(x) \]

此时代入：

\[ \int_{-\tau}^{\tau} f_{n_k}(t) \mathrm{d}t = \int_{-\tau}^{\tau} \left[\int_{-\infty}^{+\infty} \mathrm{e}^{\mathrm{i}tx} \mathrm{d}F_{n_k}(x)\right]\mathrm{d}t \xlongequal{(\text{Fubini})} \int_{-\infty}^{+\infty} \left[\int_{-\tau}^{\tau} \mathrm{e}^{\mathrm{i}tx} \mathrm{d}t\right]\mathrm{d}F_{n_k(x)} \]

结合 (2) ，只需分段估计内部的积分即可，$|x|\leqslant X$ 时，

\[ \left|\int_{-\tau}^{\tau} \mathrm{e}^{\mathrm{i}tx} \mathrm{d}t\right| \leqslant \int_{-\tau}^\tau |\mathrm{e}^{\mathrm{i}tx}| \mathrm{d}t = 2 \tau \]

$|x| > X$ 时，

\[ \left|\int_{-\tau}^{\tau} \mathrm{e}^{\mathrm{i}tx} \mathrm{d}t\right| = \left|\dfrac{2}{x}\sin \tau x\right| < \dfrac{2}{X} \]

此时有

\[ (2) < 2 \tau \underbrace{[F_{n_k}(X)-F_{n_k}(-X)]}_{\delta_k} + \dfrac{2}{X} \tag{3} \]

此时对 $\delta_k$ 进行估值，先取定 $X \geqslant \dfrac{4}{\tau \varepsilon}$ ，然后可取得足够大的 $K$ 使得 $k \geqslant K$ 时有

\[ \delta_k \leqslant \delta + \dfrac{\varepsilon}{4} \]

（其实 $\delta_k \leqslant \delta$ 是比较显然的，为了结果的好看取大一点）

故代入 (3) 有

\[ (3) \leqslant \delta + \dfrac{\varepsilon}{2} \]

因此

\[ \dfrac{1}{2 \tau}\left|\int_{-\tau}^{\tau} f_{n_k}(t) \mathrm{d}t\right| \leqslant \delta + \dfrac{\varepsilon}{2} \]

此时，由于特征函数在 $0$ 处的局部有界性，利用有界收敛定理 （控制函数为常数的控制收敛定理）取 $k\to \infty$ 可得

\[ \dfrac{1}{2 \tau}\left|\int_{-\tau}^{\tau} f(t) \mathrm{d}t\right| \leqslant \delta + \dfrac{\varepsilon}{2} \]

这与 (1) 矛盾，从而我们证明了 $F(x)$ 是分布函数.

然后再证明 $\left\lbrace F_n \right\rbrace$ 也是弱收敛于 $F(x)$ 的，假设不然，存在一个连续点 $x_0$ 使得 $F_n(x_0)\not\to F(x_0)$ ，根据有界序列必有收敛子列，存在子列 $\left\lbrace F_{m_k}(x_0) \right\rbrace$ 收敛，设其极限为 $F^*(x_0)$ .

那么在 $x_0$ 处至少有 $F^*(x_0) \neq F(x_0)$ ，根据 Helly 第一定理，$\left\lbrace F_{m_k}(x) \right\rbrace$ 可以选取子序列 $\left\lbrace F_{m_{k_l}}(x) \right\rbrace$ 弱收敛到 $F^*(x)$ ，但是 $F^*(x)$ 也应该是分布函数，其特征函数为 $f(t)$ ，根据特征函数的唯一性定理，这出现了矛盾.

最后只剩下第二个结论：$f(t)$ 为 $F(x)$ 的特征函数，我们已证明 $F(x)$ 为分布函数，因此直接利用正极限定理即可证明 $f(t)$ 为 $F(x)$ 的特征函数. $\square$