UCSD: Large Language Models Pass the Turing Test
a year ago
- #Turing Test
- #Artificial Intelligence
- #Large Language Models
- GPT-4.5在图灵测试中被判定为人类的概率达73%,显著超越真实人类参与者的表现。
- LLaMa-3.1被判定为人类的概率为56%,与真实人类表现相当。
- 基线模型ELIZA和GPT-4o的表现低于随机概率,分别仅获得23%和21%的人类判定率。
- 这项研究首次提供实证证据,表明人工智能系统能通过标准三方图灵测试。
- 该结果对理解大语言模型(LLM)的智能水平及其潜在社会与经济影响具有重要意义。