LLMs are getting better at character-level text manipulation

7 months ago

像GPT-5和Claude 4.5这样新一代大语言模型（LLMs）在处理字符操作、字符计数以及编码/密码任务方面展现出比前代模型更强的能力。
由于分词机制（将文本分解为可能代表多个字符或整个单词的标记），LLMs传统上在字符级任务上表现不佳，这使得精细的字符操作变得困难。
字符操作测试：从GPT-4.1开始的模型在诸如替换句子中的字母等任务上表现稳定，而早期模型如GPT-3.5-turbo则失败。
字符计数对大多数LLMs仍是挑战，只有GPT-4.1和GPT-5（带推理功能）能可靠地统计句子或特定字母中的字符数。
Base64和ROT20密码测试显示，新模型（GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro）能够解码和破译加密信息，表明其理解深度超越了单纯记忆模式。
部分模型如Claude Sonnet 4.5和Grok 4因安全过滤器拒绝处理编码或混淆文本，限制了它们在特定任务中的可用性。
中文推理模型在破解密码时表现出冗长的内部独白，消耗的标记数显著多于其他模型。
新模型在Base64解码上展现出更好的泛化能力，甚至能处理类似乱码的ROT20编码文本，表明其具备算法理解而不仅是模式记忆。
LLMs的字符级操作正在改进，新模型在替换任务和密码解码方面表现更优，但仍存在挑战。

Hasty Briefsbeta