26 Matching Annotations
  1. Jun 2026
    1. an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on claude.ai before they ever reached production

      这是全文最具说服力的超越人类数据点之一——不是在合成benchmark上,而是在真实生产事故的复盘中。写那些bug的工程师是世界上最顶尖的AI系统工程师。Claude能在他们miss的问题里捕捉到1/3。代码审查不再只是再读一遍,而是引入了一个认知模式和人类根本不同的审查层——人类会疲劳、有盲点、受到上下文偏见影响,Claude的错误模式与人类正交,因此互补效益显著。

    2. more than 80% of the code we merge into Anthropic's codebase was authored by Claude

      这个数字需要和脚注3一起读:80%+是合并到生产环境的行数中可归因于Claude的比例,已经是保守计算——脚注承认归因系统有漏洞,且未归因部分也包括大量非人工手写代码。真实比例可能更接近Anthropic领导层公开引用的90%+。即便是保守的80%,意义也是清晰的:在世界上最顶尖的AI研究机构里,人类工程师的核心工作已经从写代码转变为审查和导向代码。

    3. an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on claude.ai before they ever reached production

      这是全文最具说服力的「超越人类」数据点之一——不是在合成benchmark上,而是在真实生产事故的复盘中。写那些bug的工程师是世界上最顶尖的AI系统工程师。Claude能在他们miss的问题里捕捉到1/3。代码审查不再只是「再读一遍」,而是引入了一个认知模式和人类根本不同的审查层——人类会疲劳、有盲点、受到上下文偏见影响,Claude的错误模式与人类正交,因此互补效益显著。

    4. more than 80% of the code we merge into Anthropic's codebase was authored by Claude

      这个数字需要和脚注3一起读:80%+是合并到生产环境的行数中可归因于Claude的比例,已经是保守计算——脚注承认归因系统有漏洞,且未归因部分也包括大量非人工手写代码。真实比例可能更接近Anthropic领导层公开引用的90%+。但即便是保守的80%,意义也是清晰的:在世界上最顶尖的AI研究机构里,人类工程师的核心工作已经从「写代码」转变为「审查和导向代码」。

    1. there is no distinction between code and data, so warriors regularly modify both themselves and their opponents on the fly

      Core War 的自修改特性让它成为研究 AI 安全的理想沙盒。真实的网络安全攻击中,代码即数据(shellcode 注入、ROP 链)正是最难防御的攻击面。DRQ 在这个环境里自动演化出的攻击策略,本质上是在无监督地发现「代码-数据不区分」漏洞类的通用利用模式——这正是 Mythos 等模型的能力提升背后的相同机制。

  2. Dec 2025
  3. Jan 2025
    1. Roscoe: A suite of metrics for scoring step-by-step reasoning.

      这篇论文介绍了一个名为ROSCOE的度量标准套件,用于评估逐步骤推理的性能。ROSCOE是一套可解释的、无监督的自动评分系统,旨在改进和扩展之前的文本生成评估指标。该研究通过设计一个推理错误的分类学,并在常用的推理数据集上收集合成和人类评估分数,来评估ROSCOE相对于基线指标的表现

  4. Dec 2022
  5. Aug 2022
    1. 改为var后,编译器就会立马报错

      fun main() { // 找到一家肯德基 // ↓ val kfc = Restaurant<KFC>() // 需要普通饭店,传入了肯德基,编译器报错 orderFood(kfc) val success:Result.Success<Cat> = Result.Success<Cat>(Cat()) println(success.data) var s:Result.Success<Animal> = success s.data = Dog() println(success.data as Cat) }

      sealed class Result<out R> { // 协变 ① // ↓ ↓ data class Success<out T:Animal>(var data: @UnsafeVariance T, val message: String = "") : Result<T>()

      data class Error(val exception: Exception) : Result<Nothing>()
      
      data class Loading(val time: Long = System.currentTimeMillis()) : Result<Nothing>()
      

      }

  6. Mar 2022
  7. Oct 2021
    1. 在脚本中,代码编写的思路为:先将包括成本型指标在内的所有指标按照公式(1)进行标准化处理,再针对性地对成本型指标按公式(2)进行标准化。因此,代码按下列方式进行编写。首先新建标准化矩阵,复制原初矩阵所有值。然后以列为计量,循环执行公式(1)的步骤,得到标准化后的矩阵。最后单独将成本型指标按公式(2)执行标准化。
  8. Sep 2021
  9. Dec 2020