LLMs Get Lost in Multi-Turn Conversation
a year ago
- #Multi-turn Conversations
- #LLMs
- #Conversational AI
- 大语言模型(LLMs)是通过多轮对话帮助用户定义、探索和优化任务的交互界面。
- 尽管用户指令经常存在定义不全的情况,但LLM评估主要集中于单轮、完全明确指令的场景。
- 实验表明,LLMs在多轮对话中的表现显著差于单轮对话,在六项任务中平均性能下降39%。
- 多轮对话中的性能下降源于轻微的能力损失和显著增加的不可靠性。
- LLMs常在对话早期做出假设并过早生成最终解决方案,导致其无法自我纠正的错误。