Hasty Briefsbeta

双语

Introduction to Multi-Armed Bandits

8 months ago
  • #Bandit Algorithms
  • #Machine Learning
  • #Decision Making
  • 多臂老虎机作为不确定性下决策框架的简介
  • 采用教科书结构,包含独立章节、习题及前沿发展综述
  • 涵盖独立同分布奖励、对抗性奖励、情境老虎机及与经济学联系
  • 附专题独立调研报告,如『具有相似性信息的老虎机』
  • 附录提供集中不等式与KL散度的基础知识