Writing an LLM from scratch, part 15 – from context vectors to logits
a year ago
- #Embeddings
- #LLM
- #Neural Networks
- 文章讨论了LLM中从上下文向量到逻辑值的转换过程,强调使用单一线性层实现这种转换的简洁性。
- 解释了权重绑定的概念,即通过转置嵌入矩阵将上下文向量投影回词汇空间,从而简化模型输出生成过程。
- 详细说明了通过独热向量和矩阵乘法将标记ID转换为嵌入向量的过程,着重阐述了嵌入在表示标记语义方面的作用。
- 介绍了逻辑值作为未归一化概率的概念,通过softmax可转换为实际概率,这些概率构成LLM预测下一个标记的输出依据。
- 阐明每个输出中的上下文向量都对应基于当前输入序列对下一个标记的预测,而不仅限于最终标记的预测。
- 探讨了训练中避免权重绑定的实际原因,指出由于上下文向量具有丰富特征,为嵌入和逻辑值分别设置可训练层能获得更好效果。
- 提及困惑度的概念作为模型预测确定性的衡量指标,并将其与逻辑值的分布联系起来。