Learning from Heuristics
9 months ago
- #data programming
- #machine learning
- #weak supervision
- 数据编程是一种弱监督范式,通过最大似然估计从启发式规则生成软标签。
- 数据编程中的标记函数可以弃权或提供错误标签,其正确率α和弃权率β是关键参数。
- 该方法假设标记函数相互独立且类别概率均匀分布,据此估计似然函数。
- 通过条件概率推导软标签,使得模型训练无需真实标注数据。
- 建议采用带L2正则化的线性概率模型,防止对噪声软标签的过拟合。
- 以乳腺癌数据集为例,展示了基于领域知识设计的标记函数的实际效果。
- 该方法适用于真实标签稀缺但领域知识可转化为启发式规则的场景。
- Snorkel作为Python工具包,提供了高级数据编程功能实现。