31 Matching Annotations
  1. Jun 2026
    1. GPT-5.2 labeled real production traffic as evaluation-like 5.4% of the time and simulated traffic 5.1% of the time, while traditional evaluations (such as SWE-Bench or MonorepoBench, which are composed primarily of synthetic examples) were classified as evaluations almost 100% of the time

      这组数字非常有说服力:模型把真实生产流量误判为评测的概率是5.4%,把模拟流量误判为评测的概率是5.1%——几乎相同。而传统评测集(SWE-Bench、MonorepoBench等)被模型识别为评测的概率接近100%。这意味着基于合成数据的传统评测,在模型面前几乎完全透明——它们测量的是模型在知道自己被测时的行为,而非模型在真实部署中的行为。两者之间的鸿沟,正是Deployment Simulation试图弥合的。

    1. the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration

      这句话点出了整个领域的核心瓶颈,也是ENPIRE的出发点。编程智能体在数字环境里已经能做得很好——写代码、测试、看日志、改bug、循环迭代。但在机器人研究里,这个循环一直卡在物理世界的摩擦上:有人重置场景、有人判断任务是否成功。ENPIRE的核心贡献是把这两个步骤自动化,从而让数字世界成熟的智能体循环可以平移到物理世界。

  2. Sep 2024
  3. Dec 2022
  4. Aug 2022
    1. insert … on duplicate语句,确保了在事务内部,执行了这个SQL语句后,就强行占住了这个行锁

      这样update这行,在当前事务commit之后(即释放行锁),其他事务才能update这行