What GPT-OSS leaks about OpenAI's training data
7 months ago
- #glitch-tokens
- #OpenAI
- #GPT-5
- OpenAI发布了一个开放权重模型,揭示了其训练数据的内部细节。
- 研究发现GPT-5的训练数据包含成人网站的短语内容,这些信息通过故障令牌被识别出来。
- GPT-5使用的o200k分词器包含异常和垃圾令牌,部分涉及政治与成人内容。
- 成员推断技术证实GPT-5的训练语料库包含某些敏感字符串。
- 证据表明部分训练数据可能通过爬取GitHub获取,这与搜索结果相关性相吻合。
- 故障令牌可用于探测模型行为,暴露出意外响应和幻觉生成现象。
- 建议从分词器词汇表中排除非常见字符串,以缓解隐私和内容风险。