How large are large language models? (2025)

10 months ago

#AI
#LLM
#Machine Learning

GPT-2模型（2019年）参数量从1.37亿到16.1亿不等，训练数据来自WebText数据集的约100亿token。
GPT-3（2020年）拥有1750亿参数，训练数据约4000亿token，来源包括CommonCrawl和维基百科等多渠道。
GPT-3.5和GPT-4（2022年、2023年）未官方披露架构细节或训练数据信息。
Llama系列模型（7B至65B）预训练使用1.4万亿token，其中Books3数据集成为AI训练法律争议焦点。
Llama-3.1 405B（2024年）作为密集Transformer模型，训练消耗3.67万亿token，但数据构成披露较少。
Llama-4 Behemoth 2T（2025年）采用混合专家模型（MoE），激活参数2880亿，曾卷入基准测试丑闻。
Mistral发布的Mixtral 8x7B和8x22B（2024年）MoE模型规模媲美GPT-3，推动了技术普惠化。
DeepSeek-V3（2024年）作为6710亿参数的MoE模型，训练数据达14.8万亿token，实现模型规模重大突破。
DBRX（132B A36B）创新性采用细粒度MoE架构，配备16个专家模块并动态选择4个，区别于传统方案。
MiniMax-Text-01（456B A45.9B）结合MoE与注意力机制，训练时引入奖励标注模型辅助。
dots.llm1（143B A14B）性能比肩Qwen2.5-72B，使用11.2万亿真实数据训练且未采用合成数据。
Hunyuan-A13B（80B A13B）采用MoE+GQA架构，20万亿token训练数据支持256K上下文长度。
ERNIE-4.5-VL-424B-A47B训练token量达数万亿级，但具体数值尚未明确。
405B参数模型是目前可用的最新大型密集基础模型，虽经退火处理但包含近期数据。
当前技术趋势青睐MoE模型，但基准测试可能未完全涵盖需要密集参数的核心智能维度。
未来模型或将探索RWKV架构、字节潜在表示、比特网络等新范式，并发展合成数据生成技术。

Hasty Briefsbeta

How large are large language models? (2025)