LLMs are getting better at character-level text manipulation
7 months ago
- #Base64 Decoding
- #LLMs
- #Character Manipulation
- 像GPT-5和Claude 4.5这样新一代大语言模型(LLMs)在处理字符操作、字符计数以及编码/密码任务方面展现出比前代模型更强的能力。
- 由于分词机制(将文本分解为可能代表多个字符或整个单词的标记),LLMs传统上在字符级任务上表现不佳,这使得精细的字符操作变得困难。
- 字符操作测试:从GPT-4.1开始的模型在诸如替换句子中的字母等任务上表现稳定,而早期模型如GPT-3.5-turbo则失败。
- 字符计数对大多数LLMs仍是挑战,只有GPT-4.1和GPT-5(带推理功能)能可靠地统计句子或特定字母中的字符数。
- Base64和ROT20密码测试显示,新模型(GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro)能够解码和破译加密信息,表明其理解深度超越了单纯记忆模式。
- 部分模型如Claude Sonnet 4.5和Grok 4因安全过滤器拒绝处理编码或混淆文本,限制了它们在特定任务中的可用性。
- 中文推理模型在破解密码时表现出冗长的内部独白,消耗的标记数显著多于其他模型。
- 新模型在Base64解码上展现出更好的泛化能力,甚至能处理类似乱码的ROT20编码文本,表明其具备算法理解而不仅是模式记忆。
- LLMs的字符级操作正在改进,新模型在替换任务和密码解码方面表现更优,但仍存在挑战。