Which Table Format Do LLMs Understand Best? (Results for 11 Formats)
7 months ago
- #AI Performance
- #LLM
- #Data Formats
- 文章探讨了向大语言模型传递表格数据的最佳数据格式,重点关注准确性和效率。
- Markdown键值对格式实现了最高准确率(60.7%)但消耗更多token,而CSV格式token效率高但准确率较低(44.3%)。
- 该研究测试了11种格式(包括JSON、XML、YAML、HTML和自然语言),使用GPT-4.1-nano模型处理了1,000条合成的员工记录。
- 实践指导建议:追求准确性时选择Markdown键值对,平衡场景选用Markdown表格,关键应用中应避免CSV/JSONL格式。
- 局限性包括仅测试了GPT-4.1 nano模型和单一数据模式,建议未来研究拓展到其他模型和数据结构。