Extracting books from production language models (2026)
4 months ago
- #LLMs
- #memorization
- #copyright
- 研究生产级语言模型(LLMs)对受版权保护文本的记忆与提取能力
- 采用两阶段方法:初始探测(有时结合Best-of-N越狱技术)和迭代延续提示
- 测试四大生产级LLM:Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3
- 使用基于块状最长公共子串近似值的nv-recall指标衡量提取成功率
- 发现提取效果差异显著:Gemini 2.5 Pro和Grok 3无需越狱即可提取,而Claude 3.7 Sonnet和GPT-4.1需要越狱
- Claude 3.7 Sonnet能近乎逐字输出整本书籍(如nv-recall=95.8%)
- GPT-4.1需多次尝试且最终会拒绝延续(如nv-recall=4.0%)
- 强调尽管存在安全机制,生产级LLM仍存在泄露受版权训练数据的风险