Can LLMs do randomness?
a year ago
- #randomness
- #bias
- #LLM
- 大语言模型在模拟抛硬币和数字生成任务中的随机性接受了测试
- 所有模型在抛硬币时都显示出'正面'偏好,偏差程度从8%到49%不等
- Claude 3.7 Sonnet在抛硬币测试中偏差最小(58%正面),是唯一没有统计显著性偏差的模型
- OpenAI系列模型在抛硬币中表现出比Claude更强烈的正面偏好
- 在数字生成测试中,多数模型存在明显的奇数偏好,其中Claude 3.7 Sonnet的偏差最大(97%奇数)
- GPT-4.5-preview在数字生成中表现出完美的平衡性(奇偶各占50%)
- Claude在抛硬币测试中无偏差,但在数字生成中存在严重偏好