5 months ago
- OpenAI和Anthropic的API中,缓存输入token的成本比常规输入token低10倍
- 提示词缓存可将长提示词的延迟降低高达85%
- 缓存token并非存储响应结果,而是涉及注意力机制中的键值矩阵(KV缓存)
- 大语言模型先将文本转为token,再转换为嵌入向量,通过注意力机制处理
- 注意力机制通过权重计算确定每个token在上下文中的重要性
- KV缓存避免了重复计算相同提示前缀的注意力权重,节省算力
- OpenAI和Anthropic的缓存机制不同:OpenAI自动处理,Anthropic提供更多控制权
- temperature/top_p/top_k等参数影响输出随机性,但不影响提示词缓存