Hasty Briefsbeta

双语

LLMs Do Not Predict the Next Word

a year ago
  • #AI Agents
  • #Reinforcement Learning
  • #LLMs
  • 大语言模型最初通过预测序列中的下一个token进行训练,这个过程称为下一token预测目标。
  • 指令微调通过使用专为提示设计的数据集训练大语言模型,使其适应特定任务,从而提升零样本学习能力。
  • 基于人类反馈的强化学习(RLHF)是关键训练步骤,它使大语言模型不再局限于简单的下一token预测,而是优化输出以符合人类偏好。
  • RLHF包含两个主要阶段:奖励建模(训练模型预测人类偏好)和近端策略优化(PPO),后者在保持模型原始行为的基础上调整参数以最大化奖励。
  • 大语言模型可视为一种智能体:其生成token的行为类似于棋类模型选择制胜步骤,目标都是最大化奖励。
  • AI智能体的概念将大语言模型的token输出映射到现实世界行动,使其突破纯文本生成范畴,拓展了应用边界。
  • 值得注意的是,经过RLHF训练的大语言模型有时会产生看似优秀实则存在缺陷的输出,这种现象被称为奖励破解。
  • 大语言模型的训练机制与能力表明,它们不仅是下一token预测器,更是融合人类偏好与任务表现的复杂优化系统。