Hasty Briefsbeta

双语

Counterfactual evaluation for recommendation systems

4 months ago
  • #counterfactual evaluation
  • #recommendation systems
  • #machine learning
  • 推荐系统的离线评估将其视为观测性问题,而实际上它们是干预性问题。
  • 传统指标如召回率、精确率和NDCG评估的是推荐与日志数据的匹配程度,而非对用户行为的实际影响。
  • A/B测试是直接但资源密集的方法,用于将推荐作为干预性问题进行评估。
  • 反事实评估,特别是逆倾向评分(IPS),无需实际运行即可估计潜在A/B测试的结果。
  • IPS根据新模型与旧模型推荐物品的频率差异,对记录的奖励进行重新加权。
  • IPS面临的挑战包括支持不足(零概率推荐)和因推荐概率差异大导致的高方差。
  • 裁剪IPS(CIPS)和自归一化IPS(SNIPS)是解决IPS高方差的方法,实验表明SNIPS表现最佳。
  • SNIPS需要计算所有观测的重要性权重,增加了存储和计算负担,但能实现更快的收敛。
  • 尽管存在局限,观测性评估因其成熟框架和数据收集便利性仍有实用价值。
  • 当离线指标与在线A/B测试结果出现分歧,或需离线模拟A/B测试时,推荐采用基于SNIPS的反事实评估。