Hasty Briefsbeta

双语

UCSD: Large Language Models Pass the Turing Test

a year ago
  • #Turing Test
  • #Artificial Intelligence
  • #Large Language Models
  • GPT-4.5在图灵测试中被判定为人类的概率达73%,显著超越真实人类参与者的表现。
  • LLaMa-3.1被判定为人类的概率为56%,与真实人类表现相当。
  • 基线模型ELIZA和GPT-4o的表现低于随机概率,分别仅获得23%和21%的人类判定率。
  • 这项研究首次提供实证证据,表明人工智能系统能通过标准三方图灵测试。
  • 该结果对理解大语言模型(LLM)的智能水平及其潜在社会与经济影响具有重要意义。