Hasty Briefsbeta

双语

What GPT-OSS leaks about OpenAI's training data

7 months ago
  • #glitch-tokens
  • #OpenAI
  • #GPT-5
  • OpenAI发布了一个开放权重模型,揭示了其训练数据的内部细节。
  • 研究发现GPT-5的训练数据包含成人网站的短语内容,这些信息通过故障令牌被识别出来。
  • GPT-5使用的o200k分词器包含异常和垃圾令牌,部分涉及政治与成人内容。
  • 成员推断技术证实GPT-5的训练语料库包含某些敏感字符串。
  • 证据表明部分训练数据可能通过爬取GitHub获取,这与搜索结果相关性相吻合。
  • 故障令牌可用于探测模型行为,暴露出意外响应和幻觉生成现象。
  • 建议从分词器词汇表中排除非常见字符串,以缓解隐私和内容风险。