Hasty Briefsbeta

双语

Dummy's Guide to Modern LLM Sampling

a year ago
  • #Text Generation
  • #LLM
  • #Sampling
  • 大语言模型通过预测基于训练期间学习到的概率的下一个token来生成文本
  • token是用于替代完整单词或字母的子词单元,旨在提高效率并增强语义理解
  • 采样通过引入受控随机性来避免重复且确定性的输出
  • 温度参数通过平滑或锐化概率分布来调节模型的创造力
  • 存在惩罚机制会抑制之前出现过的token重复生成
  • 频率惩罚根据token出现次数降低其生成概率
  • 重复惩罚对提示文本和生成文本中的token采用差异化分数惩罚
  • DRY原则(不重复原则)通过惩罚现有模式的延续来防止重复的n元语法模式
  • Top-K方法将模型限制在仅考虑前K个最可能token
  • Top-P方法选择累计概率超过阈值P的最小token集合
  • Min-P设置相对于最高概率token的动态阈值
  • Top-A应用相对于最高概率token的平方阈值
  • XTC机制(排除首选策略)偶尔排除最可能token以促进多样性
  • Top-N-Sigma使用标准差为token选择设置自适应阈值
  • 无尾采样通过识别概率分布中的'拐点'来过滤长尾部分
  • ETA截断根据分布熵值动态调整阈值
  • EPSILON截断采用固定概率阈值消除低概率token
  • 局部典型采样选择其信息量接近平均水平的token
  • 二次采样通过二次和三次变换重塑概率分布
  • Mirostat采样通过动态调整采样阈值保持稳定的困惑度
  • 动态温度采样根据分布熵值调整温度参数
  • 束搜索同时探索多条路径以寻找最优序列
  • 对比搜索通过惩罚与上下文的相似性来平衡可能性和多样性
  • 采样器顺序对最终输出影响显著,典型流程先应用惩罚,再调节温度,最后执行过滤方法