Hasty Briefsbeta

双语

Extracting books from production language models (2026)

4 months ago
  • #LLMs
  • #memorization
  • #copyright
  • 研究生产级语言模型(LLMs)对受版权保护文本的记忆与提取能力
  • 采用两阶段方法:初始探测(有时结合Best-of-N越狱技术)和迭代延续提示
  • 测试四大生产级LLM:Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3
  • 使用基于块状最长公共子串近似值的nv-recall指标衡量提取成功率
  • 发现提取效果差异显著:Gemini 2.5 Pro和Grok 3无需越狱即可提取,而Claude 3.7 Sonnet和GPT-4.1需要越狱
  • Claude 3.7 Sonnet能近乎逐字输出整本书籍(如nv-recall=95.8%)
  • GPT-4.1需多次尝试且最终会拒绝延续(如nv-recall=4.0%)
  • 强调尽管存在安全机制,生产级LLM仍存在泄露受版权训练数据的风险