Hasty Briefsbeta

双语

Counterfactual evaluation for recommendation systems

4 months ago

#counterfactual evaluation
#recommendation systems
#machine learning

推荐系统的离线评估将其视为观测性问题，而实际上它们是干预性问题。
传统指标如召回率、精确率和NDCG评估的是推荐与日志数据的匹配程度，而非对用户行为的实际影响。
A/B测试是直接但资源密集的方法，用于将推荐作为干预性问题进行评估。
反事实评估，特别是逆倾向评分（IPS），无需实际运行即可估计潜在A/B测试的结果。
IPS根据新模型与旧模型推荐物品的频率差异，对记录的奖励进行重新加权。
IPS面临的挑战包括支持不足（零概率推荐）和因推荐概率差异大导致的高方差。
裁剪IPS（CIPS）和自归一化IPS（SNIPS）是解决IPS高方差的方法，实验表明SNIPS表现最佳。
SNIPS需要计算所有观测的重要性权重，增加了存储和计算负担，但能实现更快的收敛。
尽管存在局限，观测性评估因其成熟框架和数据收集便利性仍有实用价值。
当离线指标与在线A/B测试结果出现分歧，或需离线模拟A/B测试时，推荐采用基于SNIPS的反事实评估。