Hasty Briefsbeta

双语

Can modern LLMs count the number of b's in "blueberry"?

9 months ago

#AI
#LLM
#GPT-5

OpenAI发布了GPT-5，但其表现未达预期，尤其是在回答简单问题如单词字母计数时。
GPT-5错误地声称'blueberry'中有三个'b'字母，而实际只有两个，多名用户均复现了这一错误。
问题可能源于分词机制——大语言模型以数值方式处理文本而非逐个字母识别，这使得字母计数变得困难。
尽管存在分词挑战，Claude等模型却能正确计数，显示出不同模型间的性能差异。
多模型测试表明GPT-5在统计'blueberry'中'b'数量时持续出错，而Claude和Gemini等模型表现参差不齐。
文章总结指出，虽然大语言模型具备字母计数能力，但其准确性不稳定，这引发了对它们执行基础任务可靠性的质疑。