The End of the Train-Test Split
5 months ago
- #LLM-challenges
- #content-moderation
- #machine-learning
- 在Facebook构建臀部分类模型需要训练一个高精度、高召回率的CNN进行边缘检测。
- 政策团队要求对性暗示内容开发更具上下文感知能力的模型,这导致LLM决策树面临挑战且准确率下降。
- 标签不一致和政策模糊性引发问题,外包标注员难以把握‘性暗示’等复杂定义。
- 专家参与对复杂任务至关重要,但其有限性使得大规模标注数据集难以持续维护。
- LLM需要清晰的自然语言规则和示例而非传统训练集,重点从超参数调优转向政策对齐。
- ‘黄金集’中的高错误率和专家分歧凸显政策团队与工程团队需建立持续反馈闭环。
- 传统训练-测试划分在复杂LLM任务中失效,因标签模糊性且需专家审查模型解释。
- 影子模式测试和团队间直接沟通对解决边缘案例、提升模型准确率不可或缺。
- LLM擅长执行自然语言规则,但需严格政策对齐和持续评估以处理复杂分类。
- LLM在法律或内容审核等领域的未来,取决于解决对齐挑战和提升模型对错误的自省能力。