We also introduce an agentic streaming inference framework that supports thousand-second-scale generation while mitigating drift.
大多数人认为长时间视频生成必然会导致内容漂移(drift)和质量下降,但作者声称他们的智能体推理框架能够支持千秒级生成同时减轻漂移,这挑战了关于长时间生成一致性的普遍认知。
We also introduce an agentic streaming inference framework that supports thousand-second-scale generation while mitigating drift.
大多数人认为长时间视频生成必然会导致内容漂移(drift)和质量下降,但作者声称他们的智能体推理框架能够支持千秒级生成同时减轻漂移,这挑战了关于长时间生成一致性的普遍认知。
GLM-5.2 is the highest-ranked open-source model, showing that its 1M context has translated into practical long-horizon delivery capability.
大多数人认为开源模型在长距离任务能力上必然落后于闭源模型,但作者认为GLM-5.2作为开源模型已经实现了实际的长距离任务交付能力,甚至在某些基准测试中超过了GPT-5.5等闭源模型。这一观点挑战了AI领域'闭源模型必然优于开源模型'的主流认知,表明开源模型在特定任务上已经能够达到商业级别的性能。
The model kept finding better approaches the longer it ran, which connects directly to the long horizon behavior that makes agentic models actually useful in production.
这个发现揭示了代理模型在长时间运行任务中的独特优势 - 它们能够持续改进而非达到性能上限。这与传统AI模型形成鲜明对比,后者通常在训练完成后性能相对固定。这种持续学习能力可能是代理模型在实际生产环境中超越其他模型的关键因素。
GLM-5.1 did not plateau after 50 or 100 submissions, but continued to find meaningful improvements over 600+ iterations with 6,000+ tool calls, ultimately reaching 21.5k QPS—roughly 6× the best result achieved in a single 50-turn session.
令人惊讶的是:GLM-5.1在向量数据库优化任务中能够持续改进600多次迭代,性能提升达到原来的6倍,这打破了传统模型很快达到性能瓶颈的局限。这种长时间持续优化的能力在AI模型中极为罕见,展示了模型在长期任务处理上的突破性进步。