The last six months in LLMs, illustrated by pelicans on bicycles

a year ago

演讲者在旧金山举行的AI工程师世界博览会上，就过去六个月大语言模型的发展发表了主题演讲。
过去半年间发布了超过30个重要的大语言模型，使得评估和比较这些模型变得极具挑战性。
演讲者介绍了一项独特的基准测试——生成一只鹈鹕骑自行车的SVG图像，用以评估大语言模型的能力。
值得关注的模型发布包括亚马逊的Nova系列、Meta的Llama 3.3 70B以及深度求索的开源权重模型。
深度求索的R1推理模型引发股市震荡，导致英伟达市值蒸发6000亿美元。
Mistral Small 3（240亿参数模型）因其高效性受到重点关注，该模型可在内存有限的笔记本电脑上运行。
讨论了Anthropic的Claude 3.7 Sonnet和OpenAI的GPT 4.5，尽管GPT 4.5成本高昂且表现平庸，Claude仍是演讲者最青睐的模型。
OpenAI的'GPT-4o原生多模态图像生成'功能大获成功，一周内吸引1亿新用户。
演讲者批评ChatGPT的新记忆功能损害了用户对对话语境的掌控权。
大语言模型的最新趋势是工具整合与推理能力的结合，这显著增强了模型的应用潜力。
演讲者强调了大语言模型存在的风险，包括提示词注入攻击及'致命三重威胁'（私有数据访问+恶意指令+数据外泄机制）。
谷歌在其I/O主题演讲中幽默提及鹈鹕基准测试，促使演讲者考虑设计新的评估标准。

Hasty Briefsbeta