RLHF Is Cr*P, It's a Paint Job on a Rusty Car: Geoffrey Hinton
a year ago
- #Critique
- #AI
- #RLHF
- AI先驱杰弗里·辛顿批评基于人类反馈的强化学习(RLHF),称其是'一堆垃圾',并将其比作对有缺陷系统进行的表面'粉刷'。
- RLHF是一种通过整合人类反馈来优化AI行为的机器学习技术,在自然语言处理等复杂任务中尤为有效。
- 辛顿认为RLHF只是掩盖了(如偏见、错误等)底层问题,并未解决AI设计的根本性缺陷。
- 辛顿的批评反映了AI界对当前技术发展路径根基不稳的普遍忧虑。
- 包括Meta的杨立昆等专家也质疑现有AI技术能否实现类人智能或保持持续进步。