Hasty Briefsbeta

双语

Extracting memorized pieces of books from open-weight language models

a year ago
  • #AI
  • #memorization
  • #copyright
  • 该研究探讨了开源权重语言模型(LLMs)对受版权保护书籍的记忆程度。
  • 研究人员采用概率提取技术,从13个LLMs中提取了Books3数据集的部分内容。
  • 结果显示记忆程度因模型和书籍而异,某些模型几乎完整记忆了《哈利·波特》和《1984》等书籍。
  • 较大规模的LLMs并未整体或部分记忆大多数书籍内容。
  • 这一发现对版权诉讼具有重大意义,但研究结果并未明确支持原告或被告任何一方。