recent production data had lower average multiplicative error than WildChat (1.75x vs. 2.44x), while WildChat often stayed within roughly 3x of production rates
WildChat实验揭示了一个重要的外部性结果:不拥有私有生产流量的外部审计方,可以用公开数据集运行类似评估,精度略低但仍然有参考价值(2.44x vs 1.75x)。这对AI安全领域的生态有深远影响:政府监管机构、独立研究者、第三方审计方,不再必须完全依赖实验室自己提供数据——只要有质量足够好的公开对话数据集,就可以运行独立的部署模拟。这为外部可验证的安全评估提供了一个可行路径。