Hasty Briefsbeta

双语

The Collapse of GPT

a year ago

#AI
#Machine Learning
#Model Collapse

ChatGPT等大型语言模型自2022年11月公开发布以来已被广泛应用。
当训练数据与现实世界数据不匹配时会发生模型崩溃，导致模型性能下降。
大语言模型从维基百科和Common Crawl等来源学习词汇的统计分布规律。
合成数据取代人类生成文本会破坏自然词汇分布，引发模型崩溃。
模型崩溃不仅影响语言模型，也波及Dall-E等图像生成类生成模型。
对合成数据进行筛选可通过保证训练数据质量来缓解模型崩溃。
大语言模型可自我评估输出质量，类似基于人类反馈的强化学习(RLHF)机制。
未来挑战包括2026-2032年间可能出现的新训练数据短缺问题。
若管理得当，合成数据或能帮助改进模型，避免发展停滞。
模型崩溃可能加剧偏见，抹杀数据中对少数群体的表征。
大模型训练动态和检查点缺乏透明度，阻碍了关于多样性影响的研究。
模型崩溃是重大隐患但非迫在眉睫的灾难，需要科技公司提高警惕。