Hasty Briefsbeta

双语

LLM Benchmark for 'Longform Creative Writing'

a year ago
  • #LLM
  • #Creative Writing
  • #Benchmark
  • EQ-Bench3是一项由大语言模型评判的长篇创意写作基准测试(第三版)。
  • 模型评估采用openrouter平台,生成参数设为temp=0.7且min_p=0.1。
  • 输出内容由Claude Sonnet 3.7根据评分标准进行打分。
  • 平均章节长度以字符数计算。
  • 「模板化」列追踪过度使用的「GPT式表达」——数值越低越好。
  • 「重复率」列测量跨任务的字词/短语重复情况——数值越高表示重复越多。
  • 「衰减分」通过趋势线斜率显示质量下降程度。
  • 最终评级采用0-100分制(数值越高越好)。