Do LLMs identify fonts?

10 months ago

dafont.com 是一个综合性字体收集网站，设有字体识别求助论坛。
研究人员创建了一个基准测试，用于检验大语言模型（gpt-4o-mini 和 gemini-2.5-flash-preview-05-20）能否识别社区尚未辨别的图片字体。
该基准测试通过仅使用未识别字体，并将大语言模型的预测结果与后续社区答案对比，有效避免了数据污染。
在复杂案例中，研究人员向大语言模型提供字体图片、讨论帖标题和描述以聚焦正确字体。
采用top-$k$准确率作为评估指标，允许每个字体最多给出五个猜测答案。
结果显示模型表现欠佳，引发关于任务难度或评估公平性的质疑。
实施方案包含：Python脚本（网络爬取和提示生成）、GitHub Actions（自动化流程）和Observable Framework（数据看板）。
实时基准测试结果托管于GitHub Pages平台。

Hasty Briefsbeta