Hasty Briefsbeta

双语

Can LLMs do randomness?

a year ago
  • #randomness
  • #bias
  • #LLM
  • 大语言模型在模拟抛硬币和数字生成任务中的随机性接受了测试
  • 所有模型在抛硬币时都显示出'正面'偏好,偏差程度从8%到49%不等
  • Claude 3.7 Sonnet在抛硬币测试中偏差最小(58%正面),是唯一没有统计显著性偏差的模型
  • OpenAI系列模型在抛硬币中表现出比Claude更强烈的正面偏好
  • 在数字生成测试中,多数模型存在明显的奇数偏好,其中Claude 3.7 Sonnet的偏差最大(97%奇数)
  • GPT-4.5-preview在数字生成中表现出完美的平衡性(奇偶各占50%)
  • Claude在抛硬币测试中无偏差,但在数字生成中存在严重偏好