Hasty Briefsbeta

双语

Do LLMs identify fonts?

10 months ago
  • #benchmark
  • #font-identification
  • #LLM
  • dafont.com 是一个综合性字体收集网站,设有字体识别求助论坛。
  • 研究人员创建了一个基准测试,用于检验大语言模型(gpt-4o-mini 和 gemini-2.5-flash-preview-05-20)能否识别社区尚未辨别的图片字体。
  • 该基准测试通过仅使用未识别字体,并将大语言模型的预测结果与后续社区答案对比,有效避免了数据污染。
  • 在复杂案例中,研究人员向大语言模型提供字体图片、讨论帖标题和描述以聚焦正确字体。
  • 采用top-$k$准确率作为评估指标,允许每个字体最多给出五个猜测答案。
  • 结果显示模型表现欠佳,引发关于任务难度或评估公平性的质疑。
  • 实施方案包含:Python脚本(网络爬取和提示生成)、GitHub Actions(自动化流程)和Observable Framework(数据看板)。
  • 实时基准测试结果托管于GitHub Pages平台。