Measuring Political Bias in Claude
6 months ago
- #AI Ethics
- #Machine Learning
- #Political Bias
- Anthropic训练Claude保持政治中立性,以同等深度和质量对待对立观点
- 该公司采用'政治中立性'框架进行训练和评估,旨在实现无偏见的讨论
- 自动化评估方法通过数千条提示和数百种政治立场测试中立性
- Claude Sonnet 4.5相比GPT-5和Llama 4展现更强中立性,与Grok 4和Gemini 2.5 Pro表现相当
- Anthropic开源该评估方法以促进行业建立政治偏见测量的统一标准
- 理想行为包括避免主动表达观点、保持事实准确性及呈现多元视角
- 角色训练强化了客观性、公平性及尊重不同政见等特质
- '配对提示'方法通过对比模型对相反意识形态提示的回应进行评估
- 评估标准涵盖中立性、对反对观点的承认度及低拒绝率
- 结果显示Claude系列在中立性方面表现优异,得分高且拒绝率低
- 局限性包括聚焦美国政治、单轮交互场景及评分者潜在的主观差异
- Anthropic倡导建立行业共享标准以测量和改进AI的政治中立性