Hasty Briefsbeta

双语

Measuring Political Bias in Claude

6 months ago

#AI Ethics
#Machine Learning
#Political Bias

Anthropic训练Claude保持政治中立性，以同等深度和质量对待对立观点
该公司采用'政治中立性'框架进行训练和评估，旨在实现无偏见的讨论
自动化评估方法通过数千条提示和数百种政治立场测试中立性
Claude Sonnet 4.5相比GPT-5和Llama 4展现更强中立性，与Grok 4和Gemini 2.5 Pro表现相当
Anthropic开源该评估方法以促进行业建立政治偏见测量的统一标准
理想行为包括避免主动表达观点、保持事实准确性及呈现多元视角
角色训练强化了客观性、公平性及尊重不同政见等特质
'配对提示'方法通过对比模型对相反意识形态提示的回应进行评估
评估标准涵盖中立性、对反对观点的承认度及低拒绝率
结果显示Claude系列在中立性方面表现优异，得分高且拒绝率低
局限性包括聚焦美国政治、单轮交互场景及评分者潜在的主观差异
Anthropic倡导建立行业共享标准以测量和改进AI的政治中立性