7 Matching Annotations
  1. Last 7 days
    1. New research from @AISecurityInst and Goodfire

      大多数人认为AI安全研究主要关注模型的内部机制和架构设计,但这项研究将重点放在了模型与测试环境的交互上,提出了一个全新的研究方向。这种研究视角的转变可能预示着AI安全评估领域将迎来范式转变,从关注模型本身转向关注模型与评估环境的互动关系。

  2. May 2026
    1. As a field, AI moves forward on the basis of doing ever larger experiments that utilize more and more inputs (e.g, data and compute). Every so often, humans come up with some paradigm-shifting idea which can make it dramatically more resource efficient to do things – a good example here is the transformer architecture and another is the idea of mixture-of-expert models.

      Clark认为AI研究进展主要依赖于扩大实验规模和数据计算量,而非突破性想法,这一观点与主流认知有所不同。

  3. Apr 2026
    1. These skills act as an orchestration layer that helps scientists work through broad, ambiguous, and multi-step questions more effectively.

      将AI描述为'编排层'而非简单工具,体现了AI在科学研究中角色的根本转变。这暗示未来科学家可能更像AI系统的指挥者,而非直接执行者,重塑科研工作流程。

    2. Progress in the life sciences is constrained not only by the difficulty of the underlying science, but by the complexity of the research workflows themselves.

      这一观点挑战了传统认知,指出科学进步的主要瓶颈可能不是科学本身的难度,而是研究流程的复杂性。这暗示了优化工作流程可能比增加科学知识更能推动进步。

    1. Large language models (LLMs) sometimes appear to exhibit emotional reactions. We investigate why this is the case in Claude Sonnet 4.5 and explore implications for alignment-relevant behavior.

      【启发】这句话提示了一种全新的 AI 研究范式:与其问「模型能做什么」,不如问「模型为什么这样做」。把情绪作为切入口去理解模型行为,本质上是把心理学方法论引入了 AI 可解释性研究。这对从业者的启发是:未来最有价值的 AI 研究,可能不在算法创新,而在「为已知现象寻找机制性解释」——就像这篇论文做的那样。

    2. Large language models (LLMs) sometimes appear to exhibit emotional reactions. We investigate why this is the case in Claude Sonnet 4.5 and explore implications for alignment-relevant behavior.

      这篇论文的问题意识本身就极具洞察:大多数 AI 安全研究在追问「模型会不会说谎」,Anthropic 却在追问「模型为什么有情绪」。从「行为纠偏」转向「情绪机制」,意味着对齐研究的范式正在悄然转移——从控制外部输出,到理解内部动机结构,这是从行为主义到认知科学的跨越。

  4. Mar 2022