标签: none

《贝叶斯统计》韦来生教材绪论学习笔记,包括习题的部分答案。

符号说明

  • 概率 $\mathbb{P}$
  • 方差 $\mathbb{D}$
  • 期望 $\mathbb{E}$
  • 众数 $\mathrm{Mode}$
  • 特征函数 $\varphi(t) = \mathbb{E}[\mathrm{e}^{\mathrm{i}tX}]$
  • 样本均值 $\overline{X}$
  • 样本方差 $S^{2}$ ,注意

$$ S^{2} = \frac{1}{n-1}\sum\limits_{i=1}^{n} (X_{i}-\overline{X})^{2} $$

此外,教材使用韦来生《贝叶斯统计》,习题部分也是书上的习题.

频率学派和 Bayes 学派

  • 频率学派就是基于总体信息和样本信息来进行推断的统计学派,事实上,我们之前所学的几乎所有内容都是频率学派的成果,包括大数定律、中心极限定理等;
  • Bayes 学派则主张主观概率,认为人的经验(先验信息)是可以应用到推断当中的;

两个学派的矛盾难以调和,因此在 Bayes 统计中,频率派的一些工具就不提及了.

基本概念

先验分布和后验分布

定义:先验分布

参数空间 $\Theta$ 上的任一概率分布都称为先验分布 (prior distribution).

设随机变量 $\theta\in \Theta$ ,之后我们用 $\pi(\theta)$ 表示其概率密度函数 (PDF),并且在离散分布下,记

$$ \pi(\theta_{i}) = \mathbb{P}(\theta=\theta_{i}) $$

$\theta$ 的分布函数 (CDF) 用 $F^{\pi}(\theta)$ 表示.

先验分布表示获取抽样样本 $X$ 之前参数 $\theta$ 可能取值的认识,获取样本后,$X$ 的信息使得人们对 $\theta$ 的认识发生了变化和调整,调整的对 $\theta$ 的新认识称为后验分布. 记为 $\pi(\theta\mid x)$ .

定义:后验分布

在获得样本 $X$ 后,$\theta$ 的后验分布 (posterior distribution) 就是给定 $X=x$ 条件下 $\theta$ 的条件分布,记为 $\pi(\theta\mid x)$ . 在有密度的情形下,密度函数为

$$ \pi(\theta\mid x) = \dfrac{h(x, \theta)}{m(\theta)} = \dfrac{f(x\mid \theta) \pi(\theta)}{\displaystyle\int_{\Theta} f(x\mid \theta)\pi(\theta) \mathrm{d}\theta} $$

其中 $h(x,\theta) = f(x\mid \theta) \pi(\theta)$ 是 $X$ 和 $\theta$ 的联合密度,而

$$ m(x) = \int_{\Theta} h(x,\theta)\mathrm{d}\theta = \int_{\Theta} f(x\mid \theta) \pi(\theta) \mathrm{d}\theta $$

为 $X$ 的边缘分布.

尽管意义明显,但是定义当中的计算式还是有点难顶,刚学习时,比较麻烦的是各个概率函数的对应.

对于离散形式,实际上就变成了

$$ \pi(\theta_{i}\mid x) = \dfrac{f(x\mid \theta_{i})\pi(\theta_{i})}{\displaystyle\sum\limits_{i} f(x\mid \theta_{i})\pi(\theta_{i})}, i=1,2,\cdots $$

这个公式就是在概率论学过的 Bayes 公式. 这也说明 Bayes 公式尤其深刻的概率意义.

参数估计

在获得 $\theta$ 的后验分布后,$\theta$ 的估计可以用后验均值:

$$ \widehat{\theta}_{B} = \mathbb{E}[\theta\mid x] = \int_{\Theta} \theta_{\pi}(\theta \mid x) \mathrm{d} \theta = \dfrac{\displaystyle\int_{\Theta} \theta f(x\mid \theta) \pi(\theta) \mathrm{d}\theta}{m(x)} $$

也可用后验分布的中位数或者众数等.

假设检验

设假设检验问题的一般形式是:

$$ H_{0}: \theta\in \Theta_{0} \longleftrightarrow H_{1}: \theta\in \Theta_{1} $$

此处 $\Theta_{0}\cup \Theta_{1}=\Theta$ ,其中 $\Theta$ 是参数空间,获得 $\theta$ 的后验分布后,计算对应的后验概率:

$$ p_{0}(x) = \mathbb{P}(\theta\in \Theta_{0} \mid x) , \quad p_{1}(x) = \mathbb{P}(\theta\in \Theta_{1}\mid x) $$

上面的哪个概率更大,就选取哪个假设,因此,如果 $p_{0}(x)<p_{1}(x)$ ,就拒绝原假设 $H_{0}$ ,否则接受 $H_{0}$ .

区间估计也比较简单,就是在已知后验密度 $\pi(\theta\mid x)$ 的情况下,求统计量 $A(x)$ 和 $B(x)$ ,使得

$$ \mathbb{P}(A(x) \leqslant \theta \leqslant B(x) \mid x) = \int_{A(x)}^{B(x)} \pi(\theta\mid x) \mathrm{d}x = 1- \alpha $$

其中 $0 < \alpha < 1$ 为常数,则称 $[A(x), B(x)]$ 为 $\theta$ 的置信水平为 $1-\alpha$ 的可信区间.

计算例

设随机变量 $X$ 服从二项分布 $B(n,\theta)$ ,$\theta$ 的先验分布为 $(0,1)$ 上的均匀分布 $U(0,1)$ ,求 $\theta$ 的 Bayes 点估计.

已知 $\pi(\theta)$ 是 $U(0,1)$ 的 PDF ,那么为求后验分布,首先求联合密度,条件分布 $f(x\mid \theta)$ 就是二项分布 $B(n, \theta)$ ,于是联合密度为

$$ h(x, \theta) = \mathbb{1}_{(0< \theta < 1)} \cdot \binom{n}{x} \theta^{x} (1-\theta)^{n-x} $$

从而边际分布:

$$ m(x) = \int_{0}^{1} \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \mathrm{d}\theta = \frac{1}{n+1} $$

注意这里的积分求解涉及到 Beta 函数的定义,利用 Beta 函数和 Gamma 函数的关系化简阶乘可以得到结果.

此时的后验分布就有

$$ \pi(\theta\mid x) =(n+1) \binom{n}{x} \theta^{x} (1-\theta)^{n-x} = \dfrac{\Gamma(n+2)}{\Gamma(x+1)\Gamma(n-x+1)} \theta^{(x+1)-1} (1-\theta)^{(n-x+1)-1} $$

因此后验分布就是 $\mathrm{Beta}(x+1, n-x+1)$ .

此时的 Bayes 点估计为

$$ \widehat{\theta}_{B} = \mathbb{E}[\theta\mid x] = \frac{x+1}{n+2} $$

即有答案. $\square$

可以看到,它和 MLE 的解 $\dfrac{x}{n}$ 有一定差别,这里体现出两派的差别,如果 $x=0$ 或者 $x=n$ ,那么频率派将会直接认为对应的 MLE 为 $0,1$ ,相对极端. 但是 Bayes 派在此时的估计会相对温和,也就是说不会因为发生小概率事件而给出极端的估计.

习题

我们本章主要完成和 Bayes 有关的内容,数理统计涉及到的充分统计量、CR 不等式等内容都在此不作解决.

T1. 设参数 $\theta$ 的先验分布为 Beta 分布 $\mathrm{Beta}(\alpha,\beta)$ ,若从先验信息中获得其均值和方差分别为 $\dfrac{1}{3}$ 和 $\dfrac{1}{45}$ ,尝试确定该先验分布.

解方程组即可:

$$ \begin{cases} \dfrac{\alpha}{\alpha+\beta} = \dfrac{1}{3} \\ \dfrac{\alpha \beta}{(\alpha+\beta)^{2}(\alpha+\beta+1)} = \dfrac{1}{45} \end{cases} $$

解得 $\alpha=3, \beta=6$ . $\square$

T2. 设 $\theta$ 的先验分布是 Gamma 分布,其均值为 $10$ ,方差为 $5$ ,尝试确定 $\theta$ 的先验分布.

我们知道 $\Gamma(\alpha, \lambda)$ 分布的均值和方差对应关系:

$$ \begin{cases} \dfrac{\alpha}{\lambda} = 10 \\ \dfrac{\alpha}{\lambda^{2}} = 5 \end{cases} $$

解得 $\lambda=2, \alpha=20$ . $\square$

T3. 设 $\theta$ 是一批产品的不合格率,已知它不是 $0.1$ 就是 $0.2$ ,且其先验分布为

$$ \pi(0.1) = 0.7, \quad \pi(0.2) = 0.3 $$

假如从这批产品中随机抽取 $8$ 个进行检查,发现有 $2$ 个不合格,求 $\theta$ 的后验分布.

这个题目的难点在于 $x$ 是什么,考虑 $\theta$ 是参数,那么根据其本身的含义,我们可以知道设 $X$ 为随机变量,$X\sim B(8,\theta)$ ,表示不合格产品的数量,因此可以考虑

$$ f(x\mid \theta) = \binom{8}{x} \theta^{x} (1-\theta)^{n-x} $$

也就有

$$ f(x\mid \theta=0.1) = \binom{8}{x} 0.1^{x} 0.9^{8-x}, \quad f(x\mid \theta=0.2) = \binom{8}{x} 0.2^{x} 0.8^{8-x} $$

代入 $x=2$ ,可以计算得到

$$ f(x=2\mid \theta=0.1) = 0.14880348, \quad f(x=2\mid \theta=0.2) = 0.29360128 $$

于是根据离散的 Bayes 公式,有

$$ \pi(0.1\mid x=2) = \dfrac{0.14880348\times 0.7}{0.14880348\times 0.7+0.29360128\times 0.3} \approx 0.52451 $$

以及

$$ \pi(0.2\mid x=2) = \dfrac{0.29360128\times 0.3}{0.14880348\times 0.7+0.29360128\times 0.3} \approx 0.47549 $$

也就是相应的后验分布. $\square$

T4. 设一卷磁带上的缺陷数服从 Poisson 分布 $P(\lambda)$ ,其中 $\lambda$ 可取 $1.0$ 和 $1.5$ 中的一个,又设 $\lambda$ 的先验分布为

$$ \pi(1.0) = 0.4, \quad \pi(1.5) = 0.6 $$

假如检查一卷磁带发现 $3$ 个缺陷,求 $\lambda$ 的后验分布.

先考虑

$$ f(x\mid \lambda) = \dfrac{\lambda^{x}}{x!} \mathrm{e}^{-\lambda} $$

那么此时的联合分布:

$$ \begin{aligned} h(x, \lambda=1.0) & = 0.4\times \frac{1}{x!\mathrm{e}} \\ h(x, \lambda=1.5) & = 0.6 \times \frac{1.5^{x}}{x!\mathrm{e}^{1.5}} \end{aligned} $$

代入 $x=3$ ,

$$ \begin{aligned} h(x=3, \lambda=1.0) & = 0.4\times \frac{1}{6\mathrm{e}}\approx 0.0245253 \\ h(x=3, \lambda=1.5) & = 0.6 \times \frac{1.5^{3}}{6\mathrm{e}^{1.5}} \approx 0.075306 \end{aligned} $$

那么此时利用 Bayes 公式:

$$ \begin{aligned} \pi(\lambda=1.0\mid x=3) & = \dfrac{0.0245253}{0.0245253+0.075306} \approx 0.245667 \\ \pi(\lambda=1.5\mid x=3) & = \dfrac{0.075306}{0.0245253+0.075306} \approx 0.754333 \end{aligned} $$

也就是后验分布. $\square$

T5. 设 $\theta$ 是一批产品的不合格率,从中随机抽取 $8$ 个产品进行检查,发现有 $3$ 个不合格,假如先验分布为

(1) $\theta\sim U(0,1)$ .

(2) $\theta\sim \displaystyle\pi(\theta) = \begin{cases}2(1-\theta), & 0 < \theta < 1, \\ 0, & \text{Otherwise}\end{cases}$ .

分别求参数 $\theta$ 的后验分布.

假设 $X\sim B(8, \theta)$ ,那么:

(1) 根据例题,此时的后验分布应该为 $\mathrm{Beta}(x+1, n-x+1)$ ,代入 $n=8, x=3$ ,有后验分布为 $\mathrm{Beta}(4, 6)$ .

(2) 此时考虑先进行推导,已知:

$$ f(x\mid \theta) = \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \mathbb{1}_{(0<\theta<1)} $$

然后计算联合分布:

$$ h(x, \theta) = 2\binom{n}{x} \theta^{x} (1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta<1)} $$

计算边缘分布

$$ \begin{aligned} m(x) & = \int_{0}^{1} h(x,\theta) \mathrm{d}\theta \\ & = 2\dfrac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \int_{0}^{1}\theta^{x} (1-\theta)^{n-x+1}\mathrm{d}\theta \\ & = 2 \dfrac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \dfrac{\Gamma(x+1)\Gamma(n-x+2)}{\Gamma(n+3)} \\ & = 2\dfrac{n-x+1}{(n+2)(n+1)} \end{aligned} $$

于是

$$ \begin{aligned} \pi(\theta\mid x) & = \dfrac{(n+2)(n+1)}{n-x+1} \binom{n}{x} \theta^{x} (1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta< 1)} \\ & = \dfrac{\Gamma(n+3)}{\Gamma(x+1)\Gamma(n-x+2)} \theta^{x}(1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta< 1)} \end{aligned} $$

其实就是 $\mathrm{Beta}(x+1, n-x+2)$ ,代入 $n=8, x=3$ 有

$$ \pi(\theta\mid x=3) = 840\theta^{3}(1-\theta)^{6} \mathbb{1}_{(0< \theta<1)} $$

也就是 $\mathrm{Beta}(4,7)$ . $\square$

T6. 设 $X_{1},\cdots,X_{n}$ 是来自于密度函数 $p(x\mid \theta)$ 的样本,$\pi(\theta)$ 为 $\theta$ 的先验密度,证明:按下列序贯方法可求得 $\theta$ 的后验分布,其中符号 $\propto$ 表示正比于,即表示其左右两边只差一个与 $\theta$ 无关的正值常数因子.

(1) 给定 $X_{1}=x_{1}$ 下,求出 $\pi(\theta\mid x_{1})\propto p(x_{1}\mid \theta)\pi(\theta)$ .

(2) 把 $\pi(\theta\mid x_{1})$ 作为下一步的先验分布,在给定 $X_{2}=x_{2}$ 下,求得 $\pi(\theta\mid x_{1},x_{2})\propto p(x_{2}\mid \theta)\pi (\theta\mid x_{1})$ .

(3) 按照此方法重复,把 $\pi(\theta\mid x_{1},\cdots, x_{n-1})$ 作为下一步的先验分布,在给定 $X_{n}=x_{n}$ 下,求得 $\pi(\theta\mid \boldsymbol{x})\propto p(x_{n}\mid \theta)\pi(\theta\mid x_{1},\cdots x_{n-1})$ .

(1) 该步较为简单,根据定义,可以知道

$$ \pi(\theta\mid x_{1}) =\dfrac{p(x_{1}\mid \theta) \pi(\theta)}{m(x_{1})} \propto p(x_{1}\mid \theta) \pi(\theta) $$

(2) 在这一步,考虑样本 IID 有

$$ \begin{aligned} \pi(\theta\mid x_{1}) p(x_{2}\mid \theta) & = \dfrac{p(x_{1}\mid \theta)p(x_{2}\mid \theta)\pi(\theta)}{m(x_{1})m(x_{2})} m(x_{2}) \\ & = \dfrac{p(x_{1}, x_{2}\mid \theta) \pi(\theta)}{m(x_{1},x_{2})} m(x_{2}) = \pi(\theta\mid x_{1},x_{2}) m(x_{2}) \end{aligned} $$

也就符合本题结论.

(3) 根据归纳法并利用 (2) 可证明. $\square$

本题的结论很重要,它表示:

$$ \pi(\theta\mid \boldsymbol{x}) \propto \pi(\theta) \prod_{i=1}^{n} p(x_{i}\mid \theta) $$

也就是后验分布等于样本的联合似然乘以先验分布.

T7. 某人每天早晨在车站等候公共汽车的时间 (单位:min) 服从均匀分布 $U(0,\theta)$ ,假如 $\theta$ 的先验分布为

$$ \pi(\theta) = \begin{cases} \dfrac{192}{\theta^{4}}, & \theta \geqslant 4, \\ 0, & \theta< 4 \end{cases} $$

设此人在 $3$ 个早晨等车时间分别为 $5,8,8$ ,求 $\theta$ 的后验分布.

此时有样本 $X_{1},X_{2},X_{3}$ ,因此利用上题结论.

那么先计算联合分布

$$ h(x_{1}, \theta) = \frac{1}{\theta} \frac{192}{\theta^{4}} \mathbb{1}_{[4,+\infty)}(\theta) \mathbb{1}_{(0, \theta)}(x_{1}) = \frac{192}{\theta^{5}} \mathbb{1}_{(5,+\infty)}(\theta) $$

边际分布为

$$ m(x_{1}) = \int_{5}^{+\infty} \frac{192}{\theta^{5}} \mathrm{d}\theta = \frac{48}{625} $$

因此

$$ \pi(\theta\mid x_{1}) = \frac{2500}{\theta^{5}} \mathbb{1}_{(5,+\infty)}(\theta) $$

利用结论,可以知道

$$ \pi(\theta\mid x_{1},x_{2})\propto \pi(\theta\mid x_{1}) p(x_{2}\mid \theta) = \frac{2500}{\theta^{6}} , \theta \geqslant 8 $$

归一化后有

$$ \pi(\theta\mid x_{1},x_{2}) = \frac{163840}{\theta^{6}}, \theta \geqslant 8 $$

同理再推一步有

$$ \pi(\theta\mid \boldsymbol{x}) = \frac{1572864}{\theta^{7}}, \quad \theta \geqslant 8 $$

也就是后验分布,Pareto 分布,尺度参数为 $8$ ,形状参数为 $6$. $\square$

T8. 设随机变量 $X$ 服从均匀分布 $U(\theta - 0.5, \theta+ 0.5)$ ,其中 $\theta$ 的先验分布为 $U(10,20)$ ,

(1) 假如获得 $X$ 的观察值是 $12$ ,求 $\theta$ 的后验分布.

(2) 假如连续获得 $X$ 的 $6$ 个观察值 $12.0, 11.5, 11.7, 11.1, 11.4, 11.9$ ,求 $\theta$ 的后验分布.

(1) 考虑联合分布

$$ h(x,\theta) = \mathbb{1}_{(\theta-0.5, \theta+0.5)}(x) \frac{1}{10} \mathbb{1}_{(10,20)}(\theta) $$

此时

$$ m(x) = \int_{10}^{20} \frac{1}{10}\mathbb{1}_{(\theta-0.5,\theta+0.5)} (x)\mathrm{d}\theta $$

当观察值是 $12$ 时,$\theta\in (11.5, 12.5)$ 时才有

$$ m(x=12) = \int_{11.5}^{12.5} \frac{1}{10}\mathrm{d}\theta = 0.1 $$

因此

$$ \pi(\theta\mid x = 12) = \mathbb{1}_{(\theta-0.5, \theta+0.5)}(12) \mathbb{1}_{(10,20)}(\theta) $$

后验分布其实就是均匀分布 $U(11.5,12.5)$ .

(2) 这里先计算联合似然,也就是

$$ \prod_{i=1}^{n} p(x_{i}\mid \theta) = \begin{cases} 1, & \forall i, \quad x_{i}\in (\theta-0.5,\theta+0.5) \\ 0, & \text{Otherwise} \end{cases} $$

此时考察样本里的最值,最小值为 $11.1$ ,最大值为 $12$ ,那么上述的联合似然其实就是要求 $\theta\in (11.5, 11.6)$ .

那么最终

$$ \pi(\theta\mid \boldsymbol{x})\propto \mathbb{1}_{(11.5,11.6)}(\theta) $$

归一化后有

$$ \pi(\theta\mid \boldsymbol{x}) = \frac{1}{10}, \quad \theta\in (11.5,11.6) $$

也就是后验分布为 $U(11.5, 11.6)$ . $\square$

T9. 考虑一个试验,对给定的 $\theta$ ,试验结果 $X$ 有如下的密度函数:

$$ p(x\mid \theta) = \frac{2x}{\theta^{2}}, \quad 0 < x < \theta < 1 $$

(1) 假如 $\theta$ 的先验分布是 $(0,1)$ 上的均匀分布,试求 $\theta$ 的后验分布.

(2) 假如 $\theta$ 的先验密度是 $\pi(\theta)=3\theta^{2},\quad 0< \theta< 1$ ,试求 $\theta$ 的后验分布.

(1) 计算

$$ h(x,\theta) = \frac{2x}{\theta^{2}}, \quad 0 < x< \theta<1 $$

然后有

$$ m(x) = \int_{x}^{1} \frac{2x}{\theta^{2}} \mathrm{d}\theta = 2x \left(\frac{1}{x}-1\right) = 2-2x $$

因此

$$ \pi(\theta\mid x) = \dfrac{x}{(1-x)\theta^{2}}, \quad 0 < x < \theta < 1 $$

(2) 此时再计算有

$$ h(x,\theta) = 6x, \quad 0<x< \theta<1 $$

然后有

$$ m(x) = 6x(1-x), x\in (0,1) $$

因此

$$ \pi(\theta\mid x) = \frac{1}{1-x}, \quad 0< x< \theta< 1 $$

即 $U(x,1)$ . $\square$

添加新评论

(所有评论均需经过站主审核,违反社会道德规范与国家法律法规的评论不予通过)