6 Matching Annotations
  1. Last 7 days
  2. May 2026
    1. Research result of 83 and a production model, third-party verified score of 65.9, SubQ 1M-Preview compares favorably with other SOTA models like Claude Opus 4.7 (32.2), GPT 5.5 (74), and Gemini 3.1 Pro (26.3).

      在MRCR v2测试中,SubQ 1M-Preview的生产模型得分为65.9,显著优于Claude Opus 4.7(32.2)、GPT 5.5(74)和Gemini 3.1 Pro(26.3)。这个数据点有力证明了SubQ在多信息检索和推理方面的优越性,接近研究模型的83分。

  3. Apr 2026
    1. GPQAD | 94.4 | 90.9 | 92.7 | 92.4 | **95.1** | LCBv6 | 90.3 | 92.1 | 92.4 | 90.4 | **93.2** | SWEPro | 48.4 | 51.2 | _53.4_ | 51.3 | **54.2**

      性能对比表格显示,Sakana Fugu Ultra在三个基准测试中均优于竞争对手:GPQAD上达95.1%(超越Gemini 3.1的94.4%),LCBv6上达93.2%(超越GPT 5.4的92.1%),SWEPro上达54.2%(超越Opus 4.6的53.4%)。这些数据表明其多模型协调策略确实带来了性能提升,特别是在科学推理任务上优势明显。

  4. Feb 2020
  5. Apr 2017