Introduction to Multi-Armed Bandits8 months ago#Bandit Algorithms#Machine Learning#Decision Makinghttps://arxiv.org/abs/1904.07272Copy Link多臂老虎机作为不确定性下决策框架的简介采用教科书结构,包含独立章节、习题及前沿发展综述涵盖独立同分布奖励、对抗性奖励、情境老虎机及与经济学联系附专题独立调研报告,如『具有相似性信息的老虎机』附录提供集中不等式与KL散度的基础知识