Hypothesis

2 Matching Annotations

May 2026
epoch.ai epoch.ai

RIP Classic Reasoning Benchmarks. What's Next? - Epoch AI

1
1. fxp007 07 May 2026
  
  in Public
  
  Top models scored around 40%.
  
  这个40%的准确率表明当前AI系统在IKEA家具组装指令理解任务上的表现有限，远低于人类水平。这一数据点显示了AI在多模态空间推理方面的明显不足，但同时也为该领域提供了明确的改进基准。
  
  data-point multimodal-reasoning benchmark-performance
Visit annotations in context

Tags

multimodal-reasoning

benchmark-performance

data-point

Annotators

fxp007

URL

epoch.ai/gradient-updates/rip-classic-benchmarks
Apr 2026
lumalabs.ai lumalabs.ai

UNI-1 | Less Artificial. More Intelligent. | Luma

1
1. fxp007 09 Apr 2026
  
  in Public
  
  Uni-1 is a multimodal reasoning model that can generate pixels.
  
  令人惊讶的是：UNI-1被描述为'能够生成像素的多模态推理模型'，这种表述暗示它不仅仅是图像生成器，而是真正理解并推理多模态信息的系统，能够将抽象概念转化为具体的视觉表现，代表了AI从简单模式匹配向真正理解概念的重大飞跃。
  
  surprising multimodal ai-reasoning
Visit annotations in context

Tags

ai-reasoning

surprising

multimodal

Annotators

fxp007

URL

lumalabs.ai/uni-1