多臂老虎机:随机老虎机的概念、非结构化老虎机、环境类、Bernoulli 老虎机的代码实现
本文先介绍多臂老虎机的符号规范与基本定义,将其建模为含动作集、奖励集与概率分布的三元组,说明其在推荐、广告、投资等领域的应用。接着区分非结构化与结构化老虎机,定义伪遗憾、期望遗憾与遗憾界,指出探索‑利用权衡是核心问题。文末给出相关引理证明,并提供 Bernoulli 老虎机的 Python 实现与 Follow‑The‑Leader 算法示例,通过实验说明该算法遗憾呈线性增长,为后续更优算法作了铺垫。
本文先介绍多臂老虎机的符号规范与基本定义,将其建模为含动作集、奖励集与概率分布的三元组,说明其在推荐、广告、投资等领域的应用。接着区分非结构化与结构化老虎机,定义伪遗憾、期望遗憾与遗憾界,指出探索‑利用权衡是核心问题。文末给出相关引理证明,并提供 Bernoulli 老虎机的 Python 实现与 Follow‑The‑Leader 算法示例,通过实验说明该算法遗憾呈线性增长,为后续更优算法作了铺垫。
本页面用于存档自己在讨论班制作的 PDF Slides ,使用 Typst 制作,由于内容涉及到众多参考文献且国内相关资料较少,在此留作存档。