Hasty Briefsbeta

双语

Introduction to Multi-Armed Bandits

8 months ago

#Bandit Algorithms
#Machine Learning
#Decision Making

多臂老虎机作为不确定性下决策框架的简介
采用教科书结构，包含独立章节、习题及前沿发展综述
涵盖独立同分布奖励、对抗性奖励、情境老虎机及与经济学联系
附专题独立调研报告，如『具有相似性信息的老虎机』
附录提供集中不等式与KL散度的基础知识