Hasty Briefsbeta

双语

The last six months in LLMs, illustrated by pelicans on bicycles

a year ago
  • #AI
  • #LLMs
  • #Benchmarking
  • 演讲者在旧金山举行的AI工程师世界博览会上,就过去六个月大语言模型的发展发表了主题演讲。
  • 过去半年间发布了超过30个重要的大语言模型,使得评估和比较这些模型变得极具挑战性。
  • 演讲者介绍了一项独特的基准测试——生成一只鹈鹕骑自行车的SVG图像,用以评估大语言模型的能力。
  • 值得关注的模型发布包括亚马逊的Nova系列、Meta的Llama 3.3 70B以及深度求索的开源权重模型。
  • 深度求索的R1推理模型引发股市震荡,导致英伟达市值蒸发6000亿美元。
  • Mistral Small 3(240亿参数模型)因其高效性受到重点关注,该模型可在内存有限的笔记本电脑上运行。
  • 讨论了Anthropic的Claude 3.7 Sonnet和OpenAI的GPT 4.5,尽管GPT 4.5成本高昂且表现平庸,Claude仍是演讲者最青睐的模型。
  • OpenAI的'GPT-4o原生多模态图像生成'功能大获成功,一周内吸引1亿新用户。
  • 演讲者批评ChatGPT的新记忆功能损害了用户对对话语境的掌控权。
  • 大语言模型的最新趋势是工具整合与推理能力的结合,这显著增强了模型的应用潜力。
  • 演讲者强调了大语言模型存在的风险,包括提示词注入攻击及'致命三重威胁'(私有数据访问+恶意指令+数据外泄机制)。
  • 谷歌在其I/O主题演讲中幽默提及鹈鹕基准测试,促使演讲者考虑设计新的评估标准。