【Code】GP-UCB 算法及其实现
GP-UCB 算法
本 Notebook 主要是为 GP-UCB 算法的代码提供一个范例,这里使用了 Beale 函数作为 Benchmark ,并且后文当中有相对丰富的图像展示了 GP-UCB 算法的性能。
本 Notebook 主要是为 GP-UCB 算法的代码提供一个范例,这里使用了 Beale 函数作为 Benchmark ,并且后文当中有相对丰富的图像展示了 GP-UCB 算法的性能。
为了之后优化问题的研究,我在此留一些日后自己写算法需要的测试函数(Benchmark),有简单到可以手算的,也有相对复杂的,根据实际情况我将持续更新本文.
为了做论文当中的优化问题,特地学了一下约束优化相关的教材之外的方法,最近才有精力研读了一下 ADMM 算法相关的内容,发现很适合目前正在做的问题. 本文章的主要内容来源于 Stephen Boyd 的 ADMM 小册子 1 .
如果你需要求解非光滑的等式约束优化问题:
$$ \begin{aligned} & \min \quad f(\boldsymbol{x}) \\ & \mathrm{s.t.} \quad \boldsymbol{Ax} = \boldsymbol{b} \end{aligned} $$
或许本文有所帮助。
本文先介绍多臂老虎机的符号规范与基本定义,将其建模为含动作集、奖励集与概率分布的三元组,说明其在推荐、广告、投资等领域的应用。接着区分非结构化与结构化老虎机,定义伪遗憾、期望遗憾与遗憾界,指出探索‑利用权衡是核心问题。文末给出相关引理证明,并提供 Bernoulli 老虎机的 Python 实现与 Follow‑The‑Leader 算法示例,通过实验说明该算法遗憾呈线性增长,为后续更优算法作了铺垫。