Extracting memorized pieces of books from open-weight language models
a year ago
- #AI
- #memorization
- #copyright
- 该研究探讨了开源权重语言模型(LLMs)对受版权保护书籍的记忆程度。
- 研究人员采用概率提取技术,从13个LLMs中提取了Books3数据集的部分内容。
- 结果显示记忆程度因模型和书籍而异,某些模型几乎完整记忆了《哈利·波特》和《1984》等书籍。
- 较大规模的LLMs并未整体或部分记忆大多数书籍内容。
- 这一发现对版权诉讼具有重大意义,但研究结果并未明确支持原告或被告任何一方。