Hasty Briefsbeta

双语

How large are large language models? (2025)

10 months ago
  • #AI
  • #LLM
  • #Machine Learning
  • GPT-2模型(2019年)参数量从1.37亿到16.1亿不等,训练数据来自WebText数据集的约100亿token。
  • GPT-3(2020年)拥有1750亿参数,训练数据约4000亿token,来源包括CommonCrawl和维基百科等多渠道。
  • GPT-3.5和GPT-4(2022年、2023年)未官方披露架构细节或训练数据信息。
  • Llama系列模型(7B至65B)预训练使用1.4万亿token,其中Books3数据集成为AI训练法律争议焦点。
  • Llama-3.1 405B(2024年)作为密集Transformer模型,训练消耗3.67万亿token,但数据构成披露较少。
  • Llama-4 Behemoth 2T(2025年)采用混合专家模型(MoE),激活参数2880亿,曾卷入基准测试丑闻。
  • Mistral发布的Mixtral 8x7B和8x22B(2024年)MoE模型规模媲美GPT-3,推动了技术普惠化。
  • DeepSeek-V3(2024年)作为6710亿参数的MoE模型,训练数据达14.8万亿token,实现模型规模重大突破。
  • DBRX(132B A36B)创新性采用细粒度MoE架构,配备16个专家模块并动态选择4个,区别于传统方案。
  • MiniMax-Text-01(456B A45.9B)结合MoE与注意力机制,训练时引入奖励标注模型辅助。
  • dots.llm1(143B A14B)性能比肩Qwen2.5-72B,使用11.2万亿真实数据训练且未采用合成数据。
  • Hunyuan-A13B(80B A13B)采用MoE+GQA架构,20万亿token训练数据支持256K上下文长度。
  • ERNIE-4.5-VL-424B-A47B训练token量达数万亿级,但具体数值尚未明确。
  • 405B参数模型是目前可用的最新大型密集基础模型,虽经退火处理但包含近期数据。
  • 当前技术趋势青睐MoE模型,但基准测试可能未完全涵盖需要密集参数的核心智能维度。
  • 未来模型或将探索RWKV架构、字节潜在表示、比特网络等新范式,并发展合成数据生成技术。