Can modern LLMs count the number of b's in "blueberry"?
9 months ago
- #AI
- #LLM
- #GPT-5
- OpenAI发布了GPT-5,但其表现未达预期,尤其是在回答简单问题如单词字母计数时。
- GPT-5错误地声称'blueberry'中有三个'b'字母,而实际只有两个,多名用户均复现了这一错误。
- 问题可能源于分词机制——大语言模型以数值方式处理文本而非逐个字母识别,这使得字母计数变得困难。
- 尽管存在分词挑战,Claude等模型却能正确计数,显示出不同模型间的性能差异。
- 多模型测试表明GPT-5在统计'blueberry'中'b'数量时持续出错,而Claude和Gemini等模型表现参差不齐。
- 文章总结指出,虽然大语言模型具备字母计数能力,但其准确性不稳定,这引发了对它们执行基础任务可靠性的质疑。