Hasty Briefsbeta

双语

What GPT-OSS leaks about OpenAI's training data

7 months ago

#glitch-tokens
#OpenAI
#GPT-5

OpenAI发布了一个开放权重模型，揭示了其训练数据的内部细节。
研究发现GPT-5的训练数据包含成人网站的短语内容，这些信息通过故障令牌被识别出来。
GPT-5使用的o200k分词器包含异常和垃圾令牌，部分涉及政治与成人内容。
成员推断技术证实GPT-5的训练语料库包含某些敏感字符串。
证据表明部分训练数据可能通过爬取GitHub获取，这与搜索结果相关性相吻合。
故障令牌可用于探测模型行为，暴露出意外响应和幻觉生成现象。
建议从分词器词汇表中排除非常见字符串，以缓解隐私和内容风险。