Hasty Briefsbeta

双语

Extracting books from production language models (2026)

4 months ago

#LLMs
#memorization
#copyright

研究生产级语言模型（LLMs）对受版权保护文本的记忆与提取能力
采用两阶段方法：初始探测（有时结合Best-of-N越狱技术）和迭代延续提示
测试四大生产级LLM：Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3
使用基于块状最长公共子串近似值的nv-recall指标衡量提取成功率
发现提取效果差异显著：Gemini 2.5 Pro和Grok 3无需越狱即可提取，而Claude 3.7 Sonnet和GPT-4.1需要越狱
Claude 3.7 Sonnet能近乎逐字输出整本书籍（如nv-recall=95.8%）
GPT-4.1需多次尝试且最终会拒绝延续（如nv-recall=4.0%）
强调尽管存在安全机制，生产级LLM仍存在泄露受版权训练数据的风险