In a single run, most models—including earlier versions of GLM—give up quickly: they produce a basic skeleton with a static taskbar and one or two placeholder windows, then declare the task complete.
令人惊讶的是:即使是先进的AI模型在构建复杂Linux桌面环境时也会很快放弃,只创建基本框架就宣布任务完成。这揭示了当前AI系统在需要持续改进和长期规划的任务上的局限性,而GLM-5.1通过8小时的迭代实现了完整桌面环境的构建。