Bayes 统计 - 绪论
《贝叶斯统计》韦来生教材绪论学习笔记,包括习题的部分答案。
符号说明
- 概率 $\mathbb{P}$
- 方差 $\mathbb{D}$
- 期望 $\mathbb{E}$
- 众数 $\mathrm{Mode}$
- 特征函数 $\varphi(t) = \mathbb{E}[\mathrm{e}^{\mathrm{i}tX}]$
- 样本均值 $\overline{X}$
- 样本方差 $S^{2}$ ,注意
$$ S^{2} = \frac{1}{n-1}\sum\limits_{i=1}^{n} (X_{i}-\overline{X})^{2} $$
此外,教材使用韦来生《贝叶斯统计》,习题部分也是书上的习题.
频率学派和 Bayes 学派
- 频率学派就是基于总体信息和样本信息来进行推断的统计学派,事实上,我们之前所学的几乎所有内容都是频率学派的成果,包括大数定律、中心极限定理等;
- Bayes 学派则主张主观概率,认为人的经验(先验信息)是可以应用到推断当中的;
两个学派的矛盾难以调和,因此在 Bayes 统计中,频率派的一些工具就不提及了.
基本概念
先验分布和后验分布
定义:先验分布
参数空间 $\Theta$ 上的任一概率分布都称为先验分布 (prior distribution).
设随机变量 $\theta\in \Theta$ ,之后我们用 $\pi(\theta)$ 表示其概率密度函数 (PDF),并且在离散分布下,记
$$ \pi(\theta_{i}) = \mathbb{P}(\theta=\theta_{i}) $$
$\theta$ 的分布函数 (CDF) 用 $F^{\pi}(\theta)$ 表示.
先验分布表示获取抽样样本 $X$ 之前参数 $\theta$ 可能取值的认识,获取样本后,$X$ 的信息使得人们对 $\theta$ 的认识发生了变化和调整,调整的对 $\theta$ 的新认识称为后验分布. 记为 $\pi(\theta\mid x)$ .
定义:后验分布
在获得样本 $X$ 后,$\theta$ 的后验分布 (posterior distribution) 就是给定 $X=x$ 条件下 $\theta$ 的条件分布,记为 $\pi(\theta\mid x)$ . 在有密度的情形下,密度函数为
$$ \pi(\theta\mid x) = \dfrac{h(x, \theta)}{m(\theta)} = \dfrac{f(x\mid \theta) \pi(\theta)}{\displaystyle\int_{\Theta} f(x\mid \theta)\pi(\theta) \mathrm{d}\theta} $$
其中 $h(x,\theta) = f(x\mid \theta) \pi(\theta)$ 是 $X$ 和 $\theta$ 的联合密度,而
$$ m(x) = \int_{\Theta} h(x,\theta)\mathrm{d}\theta = \int_{\Theta} f(x\mid \theta) \pi(\theta) \mathrm{d}\theta $$
为 $X$ 的边缘分布.
尽管意义明显,但是定义当中的计算式还是有点难顶,刚学习时,比较麻烦的是各个概率函数的对应.
对于离散形式,实际上就变成了
$$ \pi(\theta_{i}\mid x) = \dfrac{f(x\mid \theta_{i})\pi(\theta_{i})}{\displaystyle\sum\limits_{i} f(x\mid \theta_{i})\pi(\theta_{i})}, i=1,2,\cdots $$
这个公式就是在概率论学过的 Bayes 公式. 这也说明 Bayes 公式尤其深刻的概率意义.
参数估计
在获得 $\theta$ 的后验分布后,$\theta$ 的估计可以用后验均值:
$$ \widehat{\theta}_{B} = \mathbb{E}[\theta\mid x] = \int_{\Theta} \theta_{\pi}(\theta \mid x) \mathrm{d} \theta = \dfrac{\displaystyle\int_{\Theta} \theta f(x\mid \theta) \pi(\theta) \mathrm{d}\theta}{m(x)} $$
也可用后验分布的中位数或者众数等.
假设检验
设假设检验问题的一般形式是:
$$ H_{0}: \theta\in \Theta_{0} \longleftrightarrow H_{1}: \theta\in \Theta_{1} $$
此处 $\Theta_{0}\cup \Theta_{1}=\Theta$ ,其中 $\Theta$ 是参数空间,获得 $\theta$ 的后验分布后,计算对应的后验概率:
$$ p_{0}(x) = \mathbb{P}(\theta\in \Theta_{0} \mid x) , \quad p_{1}(x) = \mathbb{P}(\theta\in \Theta_{1}\mid x) $$
上面的哪个概率更大,就选取哪个假设,因此,如果 $p_{0}(x)<p_{1}(x)$ ,就拒绝原假设 $H_{0}$ ,否则接受 $H_{0}$ .
区间估计也比较简单,就是在已知后验密度 $\pi(\theta\mid x)$ 的情况下,求统计量 $A(x)$ 和 $B(x)$ ,使得
$$ \mathbb{P}(A(x) \leqslant \theta \leqslant B(x) \mid x) = \int_{A(x)}^{B(x)} \pi(\theta\mid x) \mathrm{d}x = 1- \alpha $$
其中 $0 < \alpha < 1$ 为常数,则称 $[A(x), B(x)]$ 为 $\theta$ 的置信水平为 $1-\alpha$ 的可信区间.
计算例
设随机变量 $X$ 服从二项分布 $B(n,\theta)$ ,$\theta$ 的先验分布为 $(0,1)$ 上的均匀分布 $U(0,1)$ ,求 $\theta$ 的 Bayes 点估计.
已知 $\pi(\theta)$ 是 $U(0,1)$ 的 PDF ,那么为求后验分布,首先求联合密度,条件分布 $f(x\mid \theta)$ 就是二项分布 $B(n, \theta)$ ,于是联合密度为
$$ h(x, \theta) = \mathbb{1}_{(0< \theta < 1)} \cdot \binom{n}{x} \theta^{x} (1-\theta)^{n-x} $$
从而边际分布:
$$ m(x) = \int_{0}^{1} \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \mathrm{d}\theta = \frac{1}{n+1} $$
注意这里的积分求解涉及到 Beta 函数的定义,利用 Beta 函数和 Gamma 函数的关系化简阶乘可以得到结果.
此时的后验分布就有
$$ \pi(\theta\mid x) =(n+1) \binom{n}{x} \theta^{x} (1-\theta)^{n-x} = \dfrac{\Gamma(n+2)}{\Gamma(x+1)\Gamma(n-x+1)} \theta^{(x+1)-1} (1-\theta)^{(n-x+1)-1} $$
因此后验分布就是 $\mathrm{Beta}(x+1, n-x+1)$ .
此时的 Bayes 点估计为
$$ \widehat{\theta}_{B} = \mathbb{E}[\theta\mid x] = \frac{x+1}{n+2} $$
即有答案. $\square$
可以看到,它和 MLE 的解 $\dfrac{x}{n}$ 有一定差别,这里体现出两派的差别,如果 $x=0$ 或者 $x=n$ ,那么频率派将会直接认为对应的 MLE 为 $0,1$ ,相对极端. 但是 Bayes 派在此时的估计会相对温和,也就是说不会因为发生小概率事件而给出极端的估计.
习题
我们本章主要完成和 Bayes 有关的内容,数理统计涉及到的充分统计量、CR 不等式等内容都在此不作解决.
T1. 设参数 $\theta$ 的先验分布为 Beta 分布 $\mathrm{Beta}(\alpha,\beta)$ ,若从先验信息中获得其均值和方差分别为 $\dfrac{1}{3}$ 和 $\dfrac{1}{45}$ ,尝试确定该先验分布.
解方程组即可:
$$ \begin{cases} \dfrac{\alpha}{\alpha+\beta} = \dfrac{1}{3} \\ \dfrac{\alpha \beta}{(\alpha+\beta)^{2}(\alpha+\beta+1)} = \dfrac{1}{45} \end{cases} $$
解得 $\alpha=3, \beta=6$ . $\square$
T2. 设 $\theta$ 的先验分布是 Gamma 分布,其均值为 $10$ ,方差为 $5$ ,尝试确定 $\theta$ 的先验分布.
我们知道 $\Gamma(\alpha, \lambda)$ 分布的均值和方差对应关系:
$$ \begin{cases} \dfrac{\alpha}{\lambda} = 10 \\ \dfrac{\alpha}{\lambda^{2}} = 5 \end{cases} $$
解得 $\lambda=2, \alpha=20$ . $\square$
T3. 设 $\theta$ 是一批产品的不合格率,已知它不是 $0.1$ 就是 $0.2$ ,且其先验分布为
$$ \pi(0.1) = 0.7, \quad \pi(0.2) = 0.3 $$
假如从这批产品中随机抽取 $8$ 个进行检查,发现有 $2$ 个不合格,求 $\theta$ 的后验分布.
这个题目的难点在于 $x$ 是什么,考虑 $\theta$ 是参数,那么根据其本身的含义,我们可以知道设 $X$ 为随机变量,$X\sim B(8,\theta)$ ,表示不合格产品的数量,因此可以考虑
$$ f(x\mid \theta) = \binom{8}{x} \theta^{x} (1-\theta)^{n-x} $$
也就有
$$ f(x\mid \theta=0.1) = \binom{8}{x} 0.1^{x} 0.9^{8-x}, \quad f(x\mid \theta=0.2) = \binom{8}{x} 0.2^{x} 0.8^{8-x} $$
代入 $x=2$ ,可以计算得到
$$ f(x=2\mid \theta=0.1) = 0.14880348, \quad f(x=2\mid \theta=0.2) = 0.29360128 $$
于是根据离散的 Bayes 公式,有
$$ \pi(0.1\mid x=2) = \dfrac{0.14880348\times 0.7}{0.14880348\times 0.7+0.29360128\times 0.3} \approx 0.52451 $$
以及
$$ \pi(0.2\mid x=2) = \dfrac{0.29360128\times 0.3}{0.14880348\times 0.7+0.29360128\times 0.3} \approx 0.47549 $$
也就是相应的后验分布. $\square$
T4. 设一卷磁带上的缺陷数服从 Poisson 分布 $P(\lambda)$ ,其中 $\lambda$ 可取 $1.0$ 和 $1.5$ 中的一个,又设 $\lambda$ 的先验分布为
$$ \pi(1.0) = 0.4, \quad \pi(1.5) = 0.6 $$
假如检查一卷磁带发现 $3$ 个缺陷,求 $\lambda$ 的后验分布.
先考虑
$$ f(x\mid \lambda) = \dfrac{\lambda^{x}}{x!} \mathrm{e}^{-\lambda} $$
那么此时的联合分布:
$$ \begin{aligned} h(x, \lambda=1.0) & = 0.4\times \frac{1}{x!\mathrm{e}} \\ h(x, \lambda=1.5) & = 0.6 \times \frac{1.5^{x}}{x!\mathrm{e}^{1.5}} \end{aligned} $$
代入 $x=3$ ,
$$ \begin{aligned} h(x=3, \lambda=1.0) & = 0.4\times \frac{1}{6\mathrm{e}}\approx 0.0245253 \\ h(x=3, \lambda=1.5) & = 0.6 \times \frac{1.5^{3}}{6\mathrm{e}^{1.5}} \approx 0.075306 \end{aligned} $$
那么此时利用 Bayes 公式:
$$ \begin{aligned} \pi(\lambda=1.0\mid x=3) & = \dfrac{0.0245253}{0.0245253+0.075306} \approx 0.245667 \\ \pi(\lambda=1.5\mid x=3) & = \dfrac{0.075306}{0.0245253+0.075306} \approx 0.754333 \end{aligned} $$
也就是后验分布. $\square$
T5. 设 $\theta$ 是一批产品的不合格率,从中随机抽取 $8$ 个产品进行检查,发现有 $3$ 个不合格,假如先验分布为
(1) $\theta\sim U(0,1)$ .
(2) $\theta\sim \displaystyle\pi(\theta) = \begin{cases}2(1-\theta), & 0 < \theta < 1, \\ 0, & \text{Otherwise}\end{cases}$ .
分别求参数 $\theta$ 的后验分布.
假设 $X\sim B(8, \theta)$ ,那么:
(1) 根据例题,此时的后验分布应该为 $\mathrm{Beta}(x+1, n-x+1)$ ,代入 $n=8, x=3$ ,有后验分布为 $\mathrm{Beta}(4, 6)$ .
(2) 此时考虑先进行推导,已知:
$$ f(x\mid \theta) = \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \mathbb{1}_{(0<\theta<1)} $$
然后计算联合分布:
$$ h(x, \theta) = 2\binom{n}{x} \theta^{x} (1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta<1)} $$
计算边缘分布
$$ \begin{aligned} m(x) & = \int_{0}^{1} h(x,\theta) \mathrm{d}\theta \\ & = 2\dfrac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \int_{0}^{1}\theta^{x} (1-\theta)^{n-x+1}\mathrm{d}\theta \\ & = 2 \dfrac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \dfrac{\Gamma(x+1)\Gamma(n-x+2)}{\Gamma(n+3)} \\ & = 2\dfrac{n-x+1}{(n+2)(n+1)} \end{aligned} $$
于是
$$ \begin{aligned} \pi(\theta\mid x) & = \dfrac{(n+2)(n+1)}{n-x+1} \binom{n}{x} \theta^{x} (1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta< 1)} \\ & = \dfrac{\Gamma(n+3)}{\Gamma(x+1)\Gamma(n-x+2)} \theta^{x}(1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta< 1)} \end{aligned} $$
其实就是 $\mathrm{Beta}(x+1, n-x+2)$ ,代入 $n=8, x=3$ 有
$$ \pi(\theta\mid x=3) = 840\theta^{3}(1-\theta)^{6} \mathbb{1}_{(0< \theta<1)} $$
也就是 $\mathrm{Beta}(4,7)$ . $\square$
T6. 设 $X_{1},\cdots,X_{n}$ 是来自于密度函数 $p(x\mid \theta)$ 的样本,$\pi(\theta)$ 为 $\theta$ 的先验密度,证明:按下列序贯方法可求得 $\theta$ 的后验分布,其中符号 $\propto$ 表示正比于,即表示其左右两边只差一个与 $\theta$ 无关的正值常数因子.
(1) 给定 $X_{1}=x_{1}$ 下,求出 $\pi(\theta\mid x_{1})\propto p(x_{1}\mid \theta)\pi(\theta)$ .
(2) 把 $\pi(\theta\mid x_{1})$ 作为下一步的先验分布,在给定 $X_{2}=x_{2}$ 下,求得 $\pi(\theta\mid x_{1},x_{2})\propto p(x_{2}\mid \theta)\pi (\theta\mid x_{1})$ .
(3) 按照此方法重复,把 $\pi(\theta\mid x_{1},\cdots, x_{n-1})$ 作为下一步的先验分布,在给定 $X_{n}=x_{n}$ 下,求得 $\pi(\theta\mid \boldsymbol{x})\propto p(x_{n}\mid \theta)\pi(\theta\mid x_{1},\cdots x_{n-1})$ .
(1) 该步较为简单,根据定义,可以知道
$$ \pi(\theta\mid x_{1}) =\dfrac{p(x_{1}\mid \theta) \pi(\theta)}{m(x_{1})} \propto p(x_{1}\mid \theta) \pi(\theta) $$
(2) 在这一步,考虑样本 IID 有
$$ \begin{aligned} \pi(\theta\mid x_{1}) p(x_{2}\mid \theta) & = \dfrac{p(x_{1}\mid \theta)p(x_{2}\mid \theta)\pi(\theta)}{m(x_{1})m(x_{2})} m(x_{2}) \\ & = \dfrac{p(x_{1}, x_{2}\mid \theta) \pi(\theta)}{m(x_{1},x_{2})} m(x_{2}) = \pi(\theta\mid x_{1},x_{2}) m(x_{2}) \end{aligned} $$
也就符合本题结论.
(3) 根据归纳法并利用 (2) 可证明. $\square$
本题的结论很重要,它表示:
$$ \pi(\theta\mid \boldsymbol{x}) \propto \pi(\theta) \prod_{i=1}^{n} p(x_{i}\mid \theta) $$
也就是后验分布等于样本的联合似然乘以先验分布.
T7. 某人每天早晨在车站等候公共汽车的时间 (单位:min) 服从均匀分布 $U(0,\theta)$ ,假如 $\theta$ 的先验分布为
$$ \pi(\theta) = \begin{cases} \dfrac{192}{\theta^{4}}, & \theta \geqslant 4, \\ 0, & \theta< 4 \end{cases} $$
设此人在 $3$ 个早晨等车时间分别为 $5,8,8$ ,求 $\theta$ 的后验分布.
此时有样本 $X_{1},X_{2},X_{3}$ ,因此利用上题结论.
那么先计算联合分布
$$ h(x_{1}, \theta) = \frac{1}{\theta} \frac{192}{\theta^{4}} \mathbb{1}_{[4,+\infty)}(\theta) \mathbb{1}_{(0, \theta)}(x_{1}) = \frac{192}{\theta^{5}} \mathbb{1}_{(5,+\infty)}(\theta) $$
边际分布为
$$ m(x_{1}) = \int_{5}^{+\infty} \frac{192}{\theta^{5}} \mathrm{d}\theta = \frac{48}{625} $$
因此
$$ \pi(\theta\mid x_{1}) = \frac{2500}{\theta^{5}} \mathbb{1}_{(5,+\infty)}(\theta) $$
利用结论,可以知道
$$ \pi(\theta\mid x_{1},x_{2})\propto \pi(\theta\mid x_{1}) p(x_{2}\mid \theta) = \frac{2500}{\theta^{6}} , \theta \geqslant 8 $$
归一化后有
$$ \pi(\theta\mid x_{1},x_{2}) = \frac{163840}{\theta^{6}}, \theta \geqslant 8 $$
同理再推一步有
$$ \pi(\theta\mid \boldsymbol{x}) = \frac{1572864}{\theta^{7}}, \quad \theta \geqslant 8 $$
也就是后验分布,Pareto 分布,尺度参数为 $8$ ,形状参数为 $6$. $\square$
T8. 设随机变量 $X$ 服从均匀分布 $U(\theta - 0.5, \theta+ 0.5)$ ,其中 $\theta$ 的先验分布为 $U(10,20)$ ,
(1) 假如获得 $X$ 的观察值是 $12$ ,求 $\theta$ 的后验分布.
(2) 假如连续获得 $X$ 的 $6$ 个观察值 $12.0, 11.5, 11.7, 11.1, 11.4, 11.9$ ,求 $\theta$ 的后验分布.
(1) 考虑联合分布
$$ h(x,\theta) = \mathbb{1}_{(\theta-0.5, \theta+0.5)}(x) \frac{1}{10} \mathbb{1}_{(10,20)}(\theta) $$
此时
$$ m(x) = \int_{10}^{20} \frac{1}{10}\mathbb{1}_{(\theta-0.5,\theta+0.5)} (x)\mathrm{d}\theta $$
当观察值是 $12$ 时,$\theta\in (11.5, 12.5)$ 时才有
$$ m(x=12) = \int_{11.5}^{12.5} \frac{1}{10}\mathrm{d}\theta = 0.1 $$
因此
$$ \pi(\theta\mid x = 12) = \mathbb{1}_{(\theta-0.5, \theta+0.5)}(12) \mathbb{1}_{(10,20)}(\theta) $$
后验分布其实就是均匀分布 $U(11.5,12.5)$ .
(2) 这里先计算联合似然,也就是
$$ \prod_{i=1}^{n} p(x_{i}\mid \theta) = \begin{cases} 1, & \forall i, \quad x_{i}\in (\theta-0.5,\theta+0.5) \\ 0, & \text{Otherwise} \end{cases} $$
此时考察样本里的最值,最小值为 $11.1$ ,最大值为 $12$ ,那么上述的联合似然其实就是要求 $\theta\in (11.5, 11.6)$ .
那么最终
$$ \pi(\theta\mid \boldsymbol{x})\propto \mathbb{1}_{(11.5,11.6)}(\theta) $$
归一化后有
$$ \pi(\theta\mid \boldsymbol{x}) = \frac{1}{10}, \quad \theta\in (11.5,11.6) $$
也就是后验分布为 $U(11.5, 11.6)$ . $\square$
T9. 考虑一个试验,对给定的 $\theta$ ,试验结果 $X$ 有如下的密度函数:
$$ p(x\mid \theta) = \frac{2x}{\theta^{2}}, \quad 0 < x < \theta < 1 $$
(1) 假如 $\theta$ 的先验分布是 $(0,1)$ 上的均匀分布,试求 $\theta$ 的后验分布.
(2) 假如 $\theta$ 的先验密度是 $\pi(\theta)=3\theta^{2},\quad 0< \theta< 1$ ,试求 $\theta$ 的后验分布.
(1) 计算
$$ h(x,\theta) = \frac{2x}{\theta^{2}}, \quad 0 < x< \theta<1 $$
然后有
$$ m(x) = \int_{x}^{1} \frac{2x}{\theta^{2}} \mathrm{d}\theta = 2x \left(\frac{1}{x}-1\right) = 2-2x $$
因此
$$ \pi(\theta\mid x) = \dfrac{x}{(1-x)\theta^{2}}, \quad 0 < x < \theta < 1 $$
(2) 此时再计算有
$$ h(x,\theta) = 6x, \quad 0<x< \theta<1 $$
然后有
$$ m(x) = 6x(1-x), x\in (0,1) $$
因此
$$ \pi(\theta\mid x) = \frac{1}{1-x}, \quad 0< x< \theta< 1 $$
即 $U(x,1)$ . $\square$