分类强化学习下的文章

论文阅读：加性模型解决高维贝叶斯优化问题

作者: xzqbear
时间: 2026-03-02
分类: 优化,高维统计,强化学习,贝叶斯统计

论文： High Dimensional Bayesian Optimization and Bandits via Additive Models

[!tldr] 本篇导读
本篇是一个非常经典的高维 BO 作品 ¹，也根植于统计学思维，读本篇论文的目的和想法有几个：
HDBO (High-Dimensional Bayesian Optimization) 仍然是具有很多问题的领域，同时也有很多高维统计的工具可供借鉴；
本篇是高维 BO 的一个重要会议论文 (ICML)，引用量在 Web of Science 上有 230 左右，在没那么热门的 BO 领域当中已经算很高了.
本篇适合我们衔接之前的 GP-UCB 方法，同时也和 Hastie 等大佬提出的 Generalized Additive Models ² 做到了 A+B ，所以对于统计背景的研究者而言，这篇的很多想法值得借鉴.
本篇的主要内容是提出了使用加性模型对付高维贝叶斯优化问题的思路，并在此基础上给出了 Add-GP-UCB 方法.

- 阅读剩余部分 -

多臂老虎机：随机老虎机的概念、非结构化老虎机、环境类、Bernoulli 老虎机的代码实现

作者: xzqbear
时间: 2026-02-10
分类: 强化学习,概率论与数理统计

本文先介绍多臂老虎机的符号规范与基本定义，将其建模为含动作集、奖励集与概率分布的三元组，说明其在推荐、广告、投资等领域的应用。接着区分非结构化与结构化老虎机，定义伪遗憾、期望遗憾与遗憾界，指出探索‑利用权衡是核心问题。文末给出相关引理证明，并提供 Bernoulli 老虎机的 Python 实现与 Follow‑The‑Leader 算法示例，通过实验说明该算法遗憾呈线性增长，为后续更优算法作了铺垫。

- 阅读剩余部分 -