After multiple weeks of internal testing and no regressions in the set of evaluations we ran, we felt confident about the change and shipped it alongside Opus 4.7 on April 16.
大多数人认为充分的内部测试可以预防产品发布后的重大问题,但作者展示了一个经过数周内部测试且没有发现问题的系统提示变更却导致了明显的质量下降。这挑战了'测试覆盖率等于产品质量'的传统观念,暗示了评估指标与实际用户体验之间可能存在巨大鸿沟。