Hasty Briefsbeta

双语

Prompt caching: 10x cheaper LLM tokens, but how?

5 months ago

#LLM
#Attention Mechanism
#Prompt Caching

OpenAI和Anthropic的API中，缓存输入token的成本比常规输入token低10倍
提示词缓存可将长提示词的延迟降低高达85%
缓存token并非存储响应结果，而是涉及注意力机制中的键值矩阵(KV缓存)
大语言模型先将文本转为token，再转换为嵌入向量，通过注意力机制处理
注意力机制通过权重计算确定每个token在上下文中的重要性
KV缓存避免了重复计算相同提示前缀的注意力权重，节省算力
OpenAI和Anthropic的缓存机制不同：OpenAI自动处理，Anthropic提供更多控制权
temperature/top_p/top_k等参数影响输出随机性，但不影响提示词缓存