Hasty Briefsbeta

双语

OpenAI's models 'memorized' copyrighted content, new study suggests

a year ago

#OpenAI
#AI Copyright
#Training Data

新研究表明OpenAI可能在未经许可的情况下使用受版权保护内容训练部分AI模型
OpenAI面临作家和程序员起诉，指控其未经授权使用作品进行模型训练
该研究提出通过'高惊讶值'词汇检测AI模型中'记忆化'训练数据的方法
测试显示GPT-4和GPT-3.5存在记忆小说书籍与《纽约时报》文章片段的现象
研究结果凸显了提升AI训练数据透明度及开发审计工具的必要性
尽管面临诉讼，OpenAI仍主张放宽AI训练使用版权数据的限制