LLM Benchmark for 'Longform Creative Writing'
a year ago
- #LLM
- #Creative Writing
- #Benchmark
- EQ-Bench3是一项由大语言模型评判的长篇创意写作基准测试(第三版)。
- 模型评估采用openrouter平台,生成参数设为temp=0.7且min_p=0.1。
- 输出内容由Claude Sonnet 3.7根据评分标准进行打分。
- 平均章节长度以字符数计算。
- 「模板化」列追踪过度使用的「GPT式表达」——数值越低越好。
- 「重复率」列测量跨任务的字词/短语重复情况——数值越高表示重复越多。
- 「衰减分」通过趋势线斜率显示质量下降程度。
- 最终评级采用0-100分制(数值越高越好)。