Hasty Briefsbeta

双语

LLMs Do Not Predict the Next Word

a year ago

#AI Agents
#Reinforcement Learning
#LLMs

大语言模型最初通过预测序列中的下一个token进行训练，这个过程称为下一token预测目标。
指令微调通过使用专为提示设计的数据集训练大语言模型，使其适应特定任务，从而提升零样本学习能力。
基于人类反馈的强化学习（RLHF）是关键训练步骤，它使大语言模型不再局限于简单的下一token预测，而是优化输出以符合人类偏好。
RLHF包含两个主要阶段：奖励建模（训练模型预测人类偏好）和近端策略优化（PPO），后者在保持模型原始行为的基础上调整参数以最大化奖励。
大语言模型可视为一种智能体：其生成token的行为类似于棋类模型选择制胜步骤，目标都是最大化奖励。
AI智能体的概念将大语言模型的token输出映射到现实世界行动，使其突破纯文本生成范畴，拓展了应用边界。
值得注意的是，经过RLHF训练的大语言模型有时会产生看似优秀实则存在缺陷的输出，这种现象被称为奖励破解。
大语言模型的训练机制与能力表明，它们不仅是下一token预测器，更是融合人类偏好与任务表现的复杂优化系统。