an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with single or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs
ENPIRE的四模块设计(EN-PI-R-E)是一个优雅的系统分解。关键在于E(Evolution)模块:智能体不只是执行预设的训练流程,而是分析失败日志、查阅文献、修改训练代码来应对失败模式。这是一种元级的自适应——系统不只是在数据上学习,还在算法上学习。这与AAR论文中自主研究的思路高度一致,但ENPIRE把它落地到了有物理约束的机器人场景。