Dummy's Guide to Modern LLM Sampling
a year ago
- #Text Generation
- #LLM
- #Sampling
- 大语言模型通过预测基于训练期间学习到的概率的下一个token来生成文本
- token是用于替代完整单词或字母的子词单元,旨在提高效率并增强语义理解
- 采样通过引入受控随机性来避免重复且确定性的输出
- 温度参数通过平滑或锐化概率分布来调节模型的创造力
- 存在惩罚机制会抑制之前出现过的token重复生成
- 频率惩罚根据token出现次数降低其生成概率
- 重复惩罚对提示文本和生成文本中的token采用差异化分数惩罚
- DRY原则(不重复原则)通过惩罚现有模式的延续来防止重复的n元语法模式
- Top-K方法将模型限制在仅考虑前K个最可能token
- Top-P方法选择累计概率超过阈值P的最小token集合
- Min-P设置相对于最高概率token的动态阈值
- Top-A应用相对于最高概率token的平方阈值
- XTC机制(排除首选策略)偶尔排除最可能token以促进多样性
- Top-N-Sigma使用标准差为token选择设置自适应阈值
- 无尾采样通过识别概率分布中的'拐点'来过滤长尾部分
- ETA截断根据分布熵值动态调整阈值
- EPSILON截断采用固定概率阈值消除低概率token
- 局部典型采样选择其信息量接近平均水平的token
- 二次采样通过二次和三次变换重塑概率分布
- Mirostat采样通过动态调整采样阈值保持稳定的困惑度
- 动态温度采样根据分布熵值调整温度参数
- 束搜索同时探索多条路径以寻找最优序列
- 对比搜索通过惩罚与上下文的相似性来平衡可能性和多样性
- 采样器顺序对最终输出影响显著,典型流程先应用惩罚,再调节温度,最后执行过滤方法