Hasty Briefsbeta

双语

LLM Benchmark for 'Longform Creative Writing'

a year ago

#LLM
#Creative Writing
#Benchmark

EQ-Bench3是一项由大语言模型评判的长篇创意写作基准测试（第三版）。
模型评估采用openrouter平台，生成参数设为temp=0.7且min_p=0.1。
输出内容由Claude Sonnet 3.7根据评分标准进行打分。
平均章节长度以字符数计算。
「模板化」列追踪过度使用的「GPT式表达」——数值越低越好。
「重复率」列测量跨任务的字词/短语重复情况——数值越高表示重复越多。
「衰减分」通过趋势线斜率显示质量下降程度。
最终评级采用0-100分制（数值越高越好）。