3 Matching Annotations
  1. Last 7 days
    1. TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction

      大多数人认为在KV缓存压缩中,准确率和效率之间存在不可避免的权衡,但作者提出的TriAttention方法能够在保持全注意力推理准确度的同时,实现2.5倍的吞吐量提升或10.7倍的内存减少。这一结果挑战了当前领域内的效率-准确度权衡范式,表明可以通过创新方法打破这一传统限制。

    2. queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning.

      大多数人认为注意力机制中的查询(Query)向量在旋转位置编码(RoPE)后仍然具有足够的代表性来准确估计键(Key)的重要性,但作者认为这种旋转实际上导致代表性查询向量非常少,从而严重影响键值选择和推理稳定性。这一发现挑战了当前主流的KV缓存压缩方法的基础假设。

    3. TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction

      大多数人认为在大幅压缩KV缓存时必然会牺牲模型推理的准确性,但作者声称TriAttention在实现10.7倍内存减少的同时,仍能保持与完整注意力相同的推理准确性。这一结果挑战了业界在KV压缩与准确性之间的权衡认知。