Hasty Briefsbeta

双语

UCSD: Large Language Models Pass the Turing Test

a year ago

#Turing Test
#Artificial Intelligence
#Large Language Models

GPT-4.5在图灵测试中被判定为人类的概率达73%，显著超越真实人类参与者的表现。
LLaMa-3.1被判定为人类的概率为56%，与真实人类表现相当。
基线模型ELIZA和GPT-4o的表现低于随机概率，分别仅获得23%和21%的人类判定率。
这项研究首次提供实证证据，表明人工智能系统能通过标准三方图灵测试。
该结果对理解大语言模型（LLM）的智能水平及其潜在社会与经济影响具有重要意义。