The First LLM
7 months ago
- #LLM
- #transformer
- #AI-history
- 文章回顾了大语言模型(LLMs)的诞生与发展历程,探讨了谁创造了第一个LLM以及如何定义LLM的本质特征。
- 2016年作者在计算机科学课堂上讨论乔姆斯基层级结构和图灵测试时,尚未意识到即将到来的LLM革命。
- 2018年Jeremy Howard发布的ULMFit被部分学者视为首个LLM,随后Alec Radford的GPT-1使Transformer架构得到普及。
- 作者将LLM定义为采用自监督学习、通过预测下一个词进行训练的语言模型,无需调整架构即可适配多种文本任务。
- 早期模型如CoVE和ELMo采用监督学习和任务专用架构,这与定义的LLM存在本质区别。
- 基于LSTM的ULMFit因其自监督训练和任务适配性被认为是首个真正LLM,尽管GPT-1的Transformer架构更具扩展优势。
- 文章强调LLM发展的多极化起源,指出除OpenAI外,澳大利亚团队及未来可能出现的中国突破都值得关注。
- 即便模型发展为多模态系统,'LLM'术语可能像'GPU'一样延续使用——尽管功能已远超图形处理范畴。
- 首个LLM很可能是基于维基百科预训练、IMDb评论微调的ULMFit,而GPT-1的Transformer为后续规模扩展铺平道路。
- 作者最后预测LLM领域将涌现更多突破,并呼吁持续关注这个快速发展的技术领域。