Top models scored around 40%.
这个40%的准确率表明当前AI系统在IKEA家具组装指令理解任务上的表现有限,远低于人类水平。这一数据点显示了AI在多模态空间推理方面的明显不足,但同时也为该领域提供了明确的改进基准。
Top models scored around 40%.
这个40%的准确率表明当前AI系统在IKEA家具组装指令理解任务上的表现有限,远低于人类水平。这一数据点显示了AI在多模态空间推理方面的明显不足,但同时也为该领域提供了明确的改进基准。
SWE-Bench Verified score of 81.8 compared to Opus 4.6 (80.8) and Deepseek 4.0 Pro (80.0).
SubQ在SWE-Bench Verified测试中得分为81.8,略高于Claude Opus 4.6(80.8)和Deepseek 4.0 Pro(80.0)。这个数据点表明SubQ在软件工程任务方面已达到前沿水平,进一步验证了其实用价值。
Research result of 83 and a production model, third-party verified score of 65.9, SubQ 1M-Preview compares favorably with other SOTA models like Claude Opus 4.7 (32.2), GPT 5.5 (74), and Gemini 3.1 Pro (26.3).
在MRCR v2测试中,SubQ 1M-Preview的生产模型得分为65.9,显著优于Claude Opus 4.7(32.2)、GPT 5.5(74)和Gemini 3.1 Pro(26.3)。这个数据点有力证明了SubQ在多信息检索和推理方面的优越性,接近研究模型的83分。
SubQ 1M-Preview scores 95% accuracy, compared to 94.8% for Claude Opus 4.6
在RULER 128K基准测试中,SubQ 1M-Preview准确率达到95%,略高于Claude Opus 4.6的94.8%。这个数据点表明SubQ在长上下文理解方面已达到前沿水平,同时突破了传统二次扩展模型的性能瓶颈。
The benchmark tasks were meticulously constructed to be realistic, involving the hard work of hundreds of experts and likely millions of dollars — placing it among the most expensive economics papers of all time.
作者提到GDPval基准测试可能花费了数百万美元,由数百名专家参与构建。这一数据点显示了AI基准测试的高昂成本,但也暗示了这类测试可能存在资源分配不均的问题。考虑到其成本与实际经济影响之间的差距,这种高投入低产出的现象值得反思。
🔹 **Enhanced Agentic Capabilities:** Open-source SOTA in Agentic Coding benchmarks.
虽然文中没有提供具体的基准测试数据,但声称在代理编程基准测试中达到开源SOTA(最先进水平)。这是一个重要断言,但缺乏具体量化指标。如果属实,这将代表DeepSeek在AI代理能力方面的重大突破,特别是在代码生成和执行任务上。需要查看技术报告中的具体基准测试数据来验证这一声明。
GPQAD | 94.4 | 90.9 | 92.7 | 92.4 | **95.1** | LCBv6 | 90.3 | 92.1 | 92.4 | 90.4 | **93.2** | SWEPro | 48.4 | 51.2 | _53.4_ | 51.3 | **54.2**
性能对比表格显示,Sakana Fugu Ultra在三个基准测试中均优于竞争对手:GPQAD上达95.1%(超越Gemini 3.1的94.4%),LCBv6上达93.2%(超越GPT 5.4的92.1%),SWEPro上达54.2%(超越Opus 4.6的53.4%)。这些数据表明其多模型协调策略确实带来了性能提升,特别是在科学推理任务上优势明显。
The model reportedly scored 93.9% on SWE-bench Verified and 77.8% on SWE-bench Pro, but its strongest signal came from real-world results, including uncovering a 27-year-old flaw in OpenBSD, a 16-year-old vulnerability in FFmpeg, and autonomously chaining Linux kernel exploits without human input.
这些惊人的安全漏洞发现能力表明AI已经超越了传统安全工具,能够自主发现几十年未被发现的漏洞。特别是能够自主链接Linux内核漏洞的能力,展示了AI在网络安全领域的革命性潜力,这可能彻底改变安全研究和漏洞修复的方式。