Hasty Briefsbeta

双语

Dummy's Guide to Modern LLM Sampling

a year ago

#Text Generation
#LLM
#Sampling

大语言模型通过预测基于训练期间学习到的概率的下一个token来生成文本
token是用于替代完整单词或字母的子词单元，旨在提高效率并增强语义理解
采样通过引入受控随机性来避免重复且确定性的输出
温度参数通过平滑或锐化概率分布来调节模型的创造力
存在惩罚机制会抑制之前出现过的token重复生成
频率惩罚根据token出现次数降低其生成概率
重复惩罚对提示文本和生成文本中的token采用差异化分数惩罚
DRY原则（不重复原则）通过惩罚现有模式的延续来防止重复的n元语法模式
Top-K方法将模型限制在仅考虑前K个最可能token
Top-P方法选择累计概率超过阈值P的最小token集合
Min-P设置相对于最高概率token的动态阈值
Top-A应用相对于最高概率token的平方阈值
XTC机制（排除首选策略）偶尔排除最可能token以促进多样性
Top-N-Sigma使用标准差为token选择设置自适应阈值
无尾采样通过识别概率分布中的'拐点'来过滤长尾部分
ETA截断根据分布熵值动态调整阈值
EPSILON截断采用固定概率阈值消除低概率token
局部典型采样选择其信息量接近平均水平的token
二次采样通过二次和三次变换重塑概率分布
Mirostat采样通过动态调整采样阈值保持稳定的困惑度
动态温度采样根据分布熵值调整温度参数
束搜索同时探索多条路径以寻找最优序列
对比搜索通过惩罚与上下文的相似性来平衡可能性和多样性
采样器顺序对最终输出影响显著，典型流程先应用惩罚，再调节温度，最后执行过滤方法