1 Matching Annotations
  1. Last 7 days
    1. Nicholas Carlini at Anthropic tasked Claude with building a C compiler from scratch, spending roughly $20K in API costs.

      这个案例展示了AI系统在专业领域的应用能力,20万美元的API成本反映了高质量AI评估的显著经济成本。99%的GCC torture test通过率是一个令人印象深刻的指标,表明AI系统在特定领域可以达到接近人类专家的水平。