Hasty Briefsbeta

双语

Learning from Heuristics

9 months ago
  • #data programming
  • #machine learning
  • #weak supervision
  • 数据编程是一种弱监督范式,通过最大似然估计从启发式规则生成软标签。
  • 数据编程中的标记函数可以弃权或提供错误标签,其正确率α和弃权率β是关键参数。
  • 该方法假设标记函数相互独立且类别概率均匀分布,据此估计似然函数。
  • 通过条件概率推导软标签,使得模型训练无需真实标注数据。
  • 建议采用带L2正则化的线性概率模型,防止对噪声软标签的过拟合。
  • 以乳腺癌数据集为例,展示了基于领域知识设计的标记函数的实际效果。
  • 该方法适用于真实标签稀缺但领域知识可转化为启发式规则的场景。
  • Snorkel作为Python工具包,提供了高级数据编程功能实现。