Hasty Briefsbeta

双语

The First LLM

7 months ago

#LLM
#transformer
#AI-history

文章回顾了大语言模型（LLMs）的诞生与发展历程，探讨了谁创造了第一个LLM以及如何定义LLM的本质特征。
2016年作者在计算机科学课堂上讨论乔姆斯基层级结构和图灵测试时，尚未意识到即将到来的LLM革命。
2018年Jeremy Howard发布的ULMFit被部分学者视为首个LLM，随后Alec Radford的GPT-1使Transformer架构得到普及。
作者将LLM定义为采用自监督学习、通过预测下一个词进行训练的语言模型，无需调整架构即可适配多种文本任务。
早期模型如CoVE和ELMo采用监督学习和任务专用架构，这与定义的LLM存在本质区别。
基于LSTM的ULMFit因其自监督训练和任务适配性被认为是首个真正LLM，尽管GPT-1的Transformer架构更具扩展优势。
文章强调LLM发展的多极化起源，指出除OpenAI外，澳大利亚团队及未来可能出现的中国突破都值得关注。
即便模型发展为多模态系统，'LLM'术语可能像'GPU'一样延续使用——尽管功能已远超图形处理范畴。
首个LLM很可能是基于维基百科预训练、IMDb评论微调的ULMFit，而GPT-1的Transformer为后续规模扩展铺平道路。
作者最后预测LLM领域将涌现更多突破，并呼吁持续关注这个快速发展的技术领域。