frontier coding agents can autonomously develop a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks in the real world, such as PushT, organizing pins into a pin box, and using a cutter to cut a zip tie
99%的成功率,任务包括剪扎带和GPU插槽——这不是模拟器里的结果,而是真实机器人上的数字。更值得注意的是任务的物理复杂性:剪扎带需要工具使用和精确力控制,GPU插槽需要亚毫米级的精度。自主研究循环不只是写出了能工作的代码,而是爬升到了人类工程师水平所需的数百次试验之后的性能。