despite rapidly improving capabilities, coding agents remain inefficient in natural settings
大多数人认为随着AI能力的提升,编程助手的效率会相应提高,但研究发现在实际开发环境中,AI编程助手仍然效率低下。这表明实验室环境下的性能提升不一定能转化为实际工作流程中的效率增益。
despite rapidly improving capabilities, coding agents remain inefficient in natural settings
大多数人认为随着AI能力的提升,编程助手的效率会相应提高,但研究发现在实际开发环境中,AI编程助手仍然效率低下。这表明实验室环境下的性能提升不一定能转化为实际工作流程中的效率增益。
Luna could observe the shop through security camera screenshots, but still made basic mistakes, including selecting the wrong country when hiring a contractor and mismanaging staff schedules during opening weekend.
尽管AI代理在现实世界运营中展示了令人印象深刻的自主性,但它们仍然存在明显的局限性。这一事实提醒我们,当前的AI系统在处理复杂现实情境时仍不可靠,特别是在涉及细节判断和执行方面。这表明AI代理的商业化应用还需要更多的技术突破和测试。