1 Matching Annotations
  1. Last 7 days
    1. queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning.

      大多数人认为注意力机制中的查询(Query)向量在旋转位置编码(RoPE)后仍然具有足够的代表性来准确估计键(Key)的重要性,但作者认为这种旋转实际上导致代表性查询向量非常少,从而严重影响键值选择和推理稳定性。这一发现挑战了当前主流的KV缓存压缩方法的基础假设。