2 Matching Annotations
  1. Last 7 days
    1. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention

      主流观点认为需要高端GPU才能支持长上下文推理的大语言模型,但作者证明TriAttention仅使用消费级单GPU就能部署原本需要高端GPU才能运行的长上下文模型。这一发现挑战了当前对硬件需求的共识,可能使更广泛的开发者能够访问长上下文推理能力。

    1. The bundle includes four models, including Gemma's first MoE model, which can all fit on a single NVIDIA H100 GPU and supports over 140 languages.

      大多数人认为支持140多种语言的多模态模型需要大量计算资源,无法在单个GPU上运行。但作者声称这些模型可以全部适配在单个H100 GPU上,这挑战了我们对大型多语言模型资源需求的认知,暗示模型效率可能大幅提升。