应用介绍
边生成边压缩(Decoding-Time Compression)Token还没写进KV,就先判断“去留”,彻底阻断显存膨胀。重要性打分(Importance)多头注意力综合评估,每个Token对后续答案的贡献度。冗余打分(Redundancy)计算Key向量余弦相似度,找出“复读机”式内容。联合淘汰(Joint Eviction)按「高重要+低冗余」优先级实时调度KV配额,λ≈0.1时效果最佳。
边生成边压缩(Decoding-Time Compression)Token还没写进KV,就先判断“去留”,彻底阻断显存膨胀。重要性打分(Importance)多头注意力综合评估,每个Token对后续答案的贡献度。冗余打分(Redundancy)计算Key向量余弦相似度,找出“复读机”式内容。联合淘汰(Joint Eviction)按「高重要+低冗余」优先级实时调度KV配额,λ≈0.1时效果最佳。