Hasty Briefsbeta

双语

Extracting memorized pieces of books from open-weight language models

a year ago

#AI
#memorization
#copyright

该研究探讨了开源权重语言模型（LLMs）对受版权保护书籍的记忆程度。
研究人员采用概率提取技术，从13个LLMs中提取了Books3数据集的部分内容。
结果显示记忆程度因模型和书籍而异，某些模型几乎完整记忆了《哈利·波特》和《1984》等书籍。
较大规模的LLMs并未整体或部分记忆大多数书籍内容。
这一发现对版权诉讼具有重大意义，但研究结果并未明确支持原告或被告任何一方。