Hasty Briefsbeta

双语

Can LLMs do randomness?

a year ago

#randomness
#bias
#LLM

大语言模型在模拟抛硬币和数字生成任务中的随机性接受了测试
所有模型在抛硬币时都显示出'正面'偏好，偏差程度从8%到49%不等
Claude 3.7 Sonnet在抛硬币测试中偏差最小（58%正面），是唯一没有统计显著性偏差的模型
OpenAI系列模型在抛硬币中表现出比Claude更强烈的正面偏好
在数字生成测试中，多数模型存在明显的奇数偏好，其中Claude 3.7 Sonnet的偏差最大（97%奇数）
GPT-4.5-preview在数字生成中表现出完美的平衡性（奇偶各占50%）
Claude在抛硬币测试中无偏差，但在数字生成中存在严重偏好