Hasty Briefsbeta

双语

What does it take to build a human-like user simulator?

8 months ago

#AI
#Language Models
#Human Simulation

确定正确的训练目标对于激发语言模型新能力至关重要。
偏好模型和可验证奖励机制提升了模型在推理和辅助任务中的表现。
模拟真实人类用户可能成为模型协作解决复杂问题的新目标。
可采用双模型交互框架：一个担任助手角色，另一个模拟人类用户行为。
用户模拟器需评估交互成效以更新助手模型的参数。
现有语言模型尚无法实现真正拟人化的用户模拟效果。
用户模拟器的核心设计要素包括情境设定、交互框架和训练目标。
情境构建涵盖目标描述、行为特征和历史交互数据三个维度。
由于难以捕捉人类潜在情境，用户模拟存在定义模糊性问题。
三个突破方向：合成情境填充、纵向数据收集和新评估指标开发。
交互框架决定模拟器与环境对接方式及动态演进机制。
框架设计需考虑目标一致性、自我认知、影响力、记忆负荷和认知容量等因素。
调整训练目标可能增强模拟器的拟真度。
人类行为遵循多目标优化原则，包括任务完成度、省力倾向和群体协调等维度。
混合方法结合任务目标与行为克隆技术，可提升模拟真实性。
开放性问题涉及评估标准、泛化能力及相比其他方法的优势边界等议题。