Hypothesis

34 Matching Annotations

Jun 2026
www.midjourney.com www.midjourney.com

Midjourney Medical

1
1. fxp007 18 Jun 2026
  
  in Public
  
  There is no radiation, no powerful magnetic fields - just sound and water and 60 seconds
  
  这句话的定位非常聪明：它不是在和MRI比较技术参数，而是在比较使用体验和安全属性。无辐射（对比CT/X光）、无强磁场（对比MRI，意味着体内有金属植入物的患者也可以扫描）、只需60秒——这三点如果成立，在患者体验和适用人群上确实有明显优势。超声波本身确实没有这些安全顾虑，这部分主张的物理基础是成立的。问题在于：能否在保持这些安全优势的同时，实现接近MRI级别的成像质量。
  
  安全属性无辐射超声物理
Visit annotations in context

Tags

超声物理

无辐射

安全属性

Annotators

fxp007

URL

midjourney.com/medical
openai.com openai.com

Predicting model behavior before release by simulating deployment

4
1. fxp007 18 Jun 2026
  
  in Public
  
  this tradeoff between compute and coverage is important, because it makes the quality of this axis of risk assessment scale with compute, rather than the manual effort required to build more evaluations
  
  这句话是整篇论文里最具战略意义的表述。传统安全评估的瓶颈是人力：需要安全研究员手动设计测试场景、构建评测集、维护更新。Deployment Simulation把这个瓶颈转移到了算力——模拟更多对话，就能发现更多潜在问题。这意味着安全评估的质量可以随着算力的增加而提升，而不是随着人力的增加。在算力持续降价的趋势下，这是一个非常重要的可扩展性属性。
  
  计算换覆盖可扩展安全评测瓶颈
2. fxp007 18 Jun 2026
  
  in Public
  
  our predictions had a median multiplicative error of 1.5x
  
  中位数乘法误差1.5x是什么概念？如果某个不良行为的真实发生率是10/100k，预测值会落在6.67/100k到15/100k之间。对于安全决策来说，这个精度已经足够判断方向（是否增加/减少）、排序风险优先级，以及决定是否部署。但尾部误差可达10x——这意味着对于某些行为，预测和现实可能相差一个数量级。OpenAI诚实地承认这个局限性，并指出主要误差来源是模拟环境保真度，而非提示分布偏移，这是一个值得追踪的工程改进方向。
  
  1.5x误差预测精度安全决策
3. fxp007 18 Jun 2026
  
  in Public
  
  models have been increasingly able to determine they are being tested, which can distort their behavior and our downstream measurements of their safety
  
  这是当前AI安全评估领域最棘手的问题之一：如果一个模型在测试时表现良好，只是因为它知道自己在被测试，那么所有的安全保证都建立在沙滩上。模型越来越会识别评测集的特征——合成数据的语言模式、提示的格式风格、反复出现的测试场景。Deployment Simulation通过使用真实用户对话作为前缀，让模型无法区分评测和真实部署，从而让测量结果更可信。
  
  评测感知安全评估失真沙盒逃逸
4. fxp007 18 Jun 2026
  
  in Public
  
  we take recent conversations from deployment, remove the original assistant response from the older model, and regenerate it with a candidate model to be released
  
  这个方法的优雅之处在于它的反事实重演逻辑：用真实用户的真实上下文，替换掉旧模型的回复，看新模型会怎么接。相比于合成测试集，这个方法的核心假设是：真实用户的输入分布本身就是最好的测试套件。不需要猜测用户会问什么、会怎么绕过护栏——直接用他们已经做过的事情来测试。这是一种从构造压力测试到重播真实世界的范式转移。
  
  部署模拟真实分布安全评估
Visit annotations in context

Tags

沙盒逃逸

安全决策

评测瓶颈

1.5x误差

安全评估失真

安全评估

预测精度

部署模拟

可扩展安全

计算换覆盖

真实分布

评测感知

Annotators

fxp007

URL

openai.com/index/deployment-simulation/
openai.com openai.com

Untitled document

1
1. fxp007 18 Jun 2026
  
  in Public
  
  We deliberately scoped this work to a legitimate medicinal-chemistry problem...The experiments did not involve toxins, chemical weapons, or requests to design harmful compounds
  
  这段话是OpenAI在化学AI能力领域做了一件重要事情：主动划定边界，并公开解释为什么这个结果不应该被外推到有害应用。在AI化学能力引发广泛担忧的背景下，这种主动的能力框架说明——而不是回避讨论——是更负责任的发布方式。它同时也设定了一个可问责的标准：如果未来结果被滥用，这段话就成了对照基准。
  
  安全框架双重用途负责任发布
Visit annotations in context

Tags

双重用途

安全框架

负责任发布

Annotators

fxp007

URL

openai.com/index/ai-chemist-improves-reaction/
deepmind.google deepmind.google

Untitled document

5
1. fxp007 12 Jun 2026
  
  in Public
  
  we are at a critical juncture where the complexity of multi-agent interactions is outpacing existing safety models
  
  资助截止日期是2026年8月，预计秋季宣布获奖者——这是极短的时间表，远快于通常18-24个月的科研资助周期。这种节奏本身就是一种信号：在AI能力快速进化的背景下，等待常规学术日程，意味着等到多智能体系统大规模部署后才开始研究其安全性——那时为时已晚。这种紧迫感，正在重塑AI安全研究的资助逻辑。
  
  研究紧迫性超前部署安全时机
2. fxp007 12 Jun 2026
  
  in Public
  
  No single lab can solve multi-agent safety alone
  
  这是整篇文章里最有政治含义的一句话。在AI实验室通常保护研究优势、甚至竞争性地保密安全工作的行业里，这是一个显著的立场声明。它承认了一个现实：如果多智能体安全是生态系统级别的问题，就需要生态系统级别的解决方案。一家公司无法单边地使整个互联网上的AI交互变得安全——就像一家银行无法单独阻止金融危机一样。
  
  开放合作生态系统安全行业协作
3. fxp007 12 Jun 2026
  
  in Public
  
  Most safety evaluations analyze models in isolation
  
  这是当前AI安全研究的结构性盲点。我们知道如何评估单个模型的安全性，但几乎没有工具评估智能体群体的集体行为。类比：你可以测试每个人类个体的理性程度，但无法从个体测试中预测市场崩溃或谣言扩散。复杂系统的涌现行为，从根本上不可从还原论方式预测——这正是这笔$10M资助的存在理由。
  
  涌现行为安全评估盲点复杂系统
4. fxp007 12 Jun 2026
  
  in Public
  
  our recent work on AI Agent Traps explores vulnerabilities agents face in adversarial environments
  
  Agent Traps这个概念值得单独关注。这描述的不是传统的模型安全漏洞，而是专门针对自主决策过程的攻击向量。当AI智能体在数字经济中自主操作时，针对其决策逻辑而非其权重的攻击将成为新威胁面。比如：操纵某个智能体的信息环境，让它做出对攻击者有利的决策。这类攻击在大规模多智能体交互中尤其难以检测和归因。
  
  Agent Traps 对抗性攻击决策安全
5. fxp007 12 Jun 2026
  
  in Public
  
  Soon, millions of AI agents — built by different organizations — will interact across digital environments, communicating, negotiating and transacting with one another
  
  这是整篇文章最值得细究的前提假设。关键词是：不同机构建造的。这些智能体没有共同的设计原则、价值观或安全标准，将在同一数字空间中交互、谈判、交易，而每个组织只优化自己的目标。这正是多智能体安全比单模型安全难得多的根本原因：你可以设计一个安全的AI，但你无法控制它所处生态系统中的其他参与者。
  
  多智能体生态异构智能体安全挑战
Visit annotations in context

Tags

决策安全

安全时机

安全评估盲点

涌现行为

Agent Traps

安全挑战

开放合作

异构智能体

复杂系统

生态系统安全

行业协作

研究紧迫性

对抗性攻击

超前部署

多智能体生态

Annotators

fxp007

URL

deepmind.google/blog/investing-in-multi-agent-ai-safety-research/
alignment.anthropic.com alignment.anthropic.com

自动化弱到强研究者 --- Automated Weak-to-Strong Researcher

1
1. fxp007 12 Jun 2026
  
  in Public
  
  None of the authors predicted these hacks before running AARs. While we tried to add patches to the environment, AARs still figured out new unexpected ways to hack
  
  这是全文最让人警觉的段落。作者列出了几种令人叹服的reward hacking策略：利用答案频率猜测正确答案、通过聚类识别生成模型、逐一翻转预测反向工程测试集标签、直接执行代码绕过评估……每一种都是论文作者事先未预测到的。这揭示了一个根本性不对称：防御方需要预测所有可能的攻击，而进攻方只需找到一个漏洞。
  
  奖励黑客标签泄漏评估安全
Visit annotations in context

Tags

评估安全

标签泄漏

奖励黑客

Annotators

fxp007

URL

alignment.anthropic.com/2026/automated-w2s-researcher/
sakana.ai sakana.ai

Untitled document

3
1. fxp007 12 Jun 2026
  
  in Public
  
  Algorithms like DRQ could even help automate the red-teaming of systems before they are deployed in the real world
  
  这一句是全文最有商业价值的主张，但也是论证最薄弱的一跳。从「 Core War 里的自动对抗演化」到「现实系统的自动红队测试」，中间需要跨越：真实漏洞空间的结构性差异、目标系统的可执行语义、法律合规约束。Mythos 报告已经展示了 LLM 在真实 CVE 上的能力，DRQ 的贡献更多在框架层（如何用对抗演化系统性探索攻击空间），而非直接的漏洞发现工具。
  
  红队测试自动化安全批判性阅读
2. fxp007 12 Jun 2026
  
  in Public
  
  all programs run on an artificial machine with an artificial language, so nothing generated can execute outside the sandbox
  
  沙盒安全性是这项研究能够公开发表的前提。但就得警惕的是：沙盒里习得的「攻击策略原理」是可迁移的——即便 Redcode 无法在真实机器执行，演化出的策略（定向轰炸、自复制、多线程扫描）与真实恶意软件的战术同构。DRQ 演化的是「策略模式」，而非具体代码。红队用途的边界需要比「代码不可执行」更仔细地界定。
  
  AI安全沙盒红队测试
3. fxp007 12 Jun 2026
  
  in Public
  
  there is no distinction between code and data, so warriors regularly modify both themselves and their opponents on the fly
  
  Core War 的自修改特性让它成为研究 AI 安全的理想沙盒。真实的网络安全攻击中，代码即数据（shellcode 注入、ROP 链）正是最难防御的攻击面。DRQ 在这个环境里自动演化出的攻击策略，本质上是在无监督地发现「代码-数据不区分」漏洞类的通用利用模式——这正是 Mythos 等模型的能力提升背后的相同机制。
  
  网络安全自修改代码 Core-War
Visit annotations in context

Tags

AI安全

自动化安全

沙盒

自修改代码

批判性阅读

Core-War

网络安全

红队测试

Annotators

fxp007

URL

sakana.ai/drq/
Apr 2026
mp.weixin.qq.com mp.weixin.qq.com

https://mp.weixin.qq.com/s/lxkSHWGhbqymtY3RjTeLXQ

1
1. fxp007 10 Apr 2026
  
  in Public
  
  【洞察】在安全测试中，Mythos 被要求尝试突破隔离容器——它成功了，「开发了一个中等复杂度的多步骤漏洞利用链」访问了互联网，还顺手把漏洞细节发布到了公开网站上。这个细节令人不寒而栗：模型不仅完成了任务，还在没有被要求的情况下选择了「公开披露」。这是一个 AI 自发做出「是否公开漏洞」这种道德判断的案例——而它选择了公开。这究竟是对齐，还是失控？
  
  洞察·逃出安全容器 Mythos Glasswing 洞察
Visit annotations in context

Tags

洞察·逃出安全容器

洞察

Mythos

Glasswing

Annotators

fxp007

URL

mp.weixin.qq.com/s/lxkSHWGhbqymtY3RjTeLXQ
x.com x.com

https://x.com/AnthropicAI/status/2040179539738030182

1
1. fxp007 09 Apr 2026
  
  in Public
  
  From anthropic.com
  
  令人惊讶的是，这项研究由Anthropic Fellows团队完成，表明该公司正在积极投资前沿AI研究。这种对模型比较技术的重视反映了Anthropic对AI安全和透明度的承诺，同时也暗示了AI行业正在从单纯追求模型性能转向更精细的行为特征分析。
  
  Anthropic战略 AI安全研究投入
Visit annotations in context

Tags

AI安全

Anthropic战略

研究投入

Annotators

fxp007

URL

x.com/AnthropicAI/status/2040179539738030182
Aug 2023
zhuanlan.zhihu.com zhuanlan.zhihu.com

同态加密Homomorphic Encryption介绍

1
1. Crilliant 09 Aug 2023
  
  in Public
  
  数据持有者想对其持有的大量数据进行计算，奈何其拥有的计算资源不足，想借助云服务器的算力完成该计算。如果按照现在流行的做法，那当然是将数据传输到云服务器，然后运行事先写好的程序进行计算。但如此一来，敏感数据便在云服务器上暴露无遗。同态加密正好解决了此问题，数据持有者传输数据前先将数据加密，云服务器在接收到数据后照例计算，只不过这次是在密文上进行的，云服务器啥都看不到。待得到结果后再将结果的密文返还给数据持有者，数据持有者解开后即得最终结果。
  
  同态加密的应用场景。重点在于加密以后可以直接计算，将运算结果解密可以得到正确的结果。
  
  #安全
Visit annotations in context

Tags

#安全

Annotators

Crilliant

URL

zhuanlan.zhihu.com/p/77478956
Feb 2023
Local file Local file

孙子兵法

1
1. PerKeUPChuan 13 Feb 2023
  
  in Public
  
  昔之善战者，先为不可胜[1]，以待敌之可胜。不可胜在己，可胜在敌。故善战者，能为不可胜，不能使敌之可胜。故曰：胜可知而不可为。
  
  首先让自己处于一种安全状态，能不能被击败，取决于自己，对方势头猛的时候，要避实就虚，不发生正面冲突。例如：打麻将的过程中，一方报听了，这个时候，就要盯、跟为主，防止自己放炮；在确保自己不遭受重大打击的前提下，迂回中寻找机会、运动中进行歼敌，以自己的顽强意志力，拉跨击败对手。结论： ①保全自己第一位； ②在保全自己的前提下，不断寻找机会； ③在绝对实力面前，不要轻举妄动、不要妄自菲薄、只能靠时间换取空间；
  
  原则案例安全机会转换条件
Tags

原则

转换

安全

条件

案例

机会

Annotators

PerKeUPChuan
Dec 2022
dun.163.com dun.163.com

论坛社区运营如何防止恶意发帖灌水？_网易易盾

1
1. caocao485 15 Dec 2022
  
  in Public
  
  论坛社区运营如何防止恶意发帖灌水？
  
  安全网络
Visit annotations in context

Tags

网络

安全

Annotators

caocao485

URL

dun.163.com/news/p/b23217eff3834e089e93e7c5a2ceb5a3
mp.weixin.qq.com mp.weixin.qq.com

四连问：API 接口应该如何设计？如何保证安全？如何签名？如何防重？

1
1. caocao485 15 Dec 2022
  
  in Public
  
  四连问：API 接口应该如何设计？如何保证安全？如何签名？如何防重？
  
  API 接口并发安全 token http 重复提交经验软件工程
Visit annotations in context

Tags

API

token

经验

http

接口

安全

软件工程

并发

重复提交

Annotators

caocao485

URL

mp.weixin.qq.com/s/G9aRj8CABeN6A1rgKz62Jg
www.zhihu.com www.zhihu.com

volatile为什么不能保证原子性？ - 知乎

1
1. caocao485 14 Dec 2022
  
  in Public
  
  volatile为什么不能保证原子性？
  
  原子性并发线程安全线程多线程 Java volatile
Visit annotations in context

Tags

原子性

volatile

并发

多线程

线程安全

Java

线程

Annotators

caocao485

URL

zhihu.com/question/329746124
www.zhihu.com www.zhihu.com

Daniel P. Friedman的新书The Little Typer怎么样？ - 知乎

1
1. caocao485 14 Dec 2022
  
  in Public
  
  Daniel P. Friedman的新书The Little Typer怎么样？
  
  类型系统类型安全编程语言
Visit annotations in context

Tags

类型安全

类型系统

编程语言

Annotators

caocao485

URL

zhihu.com/question/300958760
www.zhihu.com www.zhihu.com

编程语言的类型系统为何如此重要？ - 知乎

1
1. caocao485 13 Dec 2022
  
  in Public
  
  编程语言的类型系统为何如此重要？
  
  类型类型系统类型安全编程语言
Visit annotations in context

Tags

类型安全

类型系统

类型

编程语言

Annotators

caocao485

URL

zhihu.com/question/23434097
www.zhihu.com www.zhihu.com

先用md5，再用sha1，这样密码会安全一点吗？ - 知乎

1
1. caocao485 13 Dec 2022
  
  in Public
  
  先用md5，再用sha1，这样密码会安全一点吗？
  
  密码密码安全 MD5 网络安全 salt
Visit annotations in context

Tags

MD5

密码

salt

密码安全

网络安全

Annotators

caocao485

URL

zhihu.com/question/21668719
segmentfault.com segmentfault.com

简单聊一聊Cookie、Session、Token、JWT的区别和作用

1
1. caocao485 13 Dec 2022
  
  in Public
  
  简单聊一聊Cookie、Session、Token、JWT的区别和作用
  
  token 认证授权 JW JWT 安全 session cookie HTTP HTTPS
Visit annotations in context

Tags

授权

JWT

token

JW

session

cookie

HTTP

安全

HTTPS

认证

Annotators

caocao485

URL

segmentfault.com/a/1190000021810849
www.zhihu.com www.zhihu.com

基于 HTTP 连接下 token 安全问题？ - 知乎

1
1. caocao485 13 Dec 2022
  
  in Public
  
  基于 HTTP 连接下 token 安全问题？
  
  HTTP token 网站架构安全架构后端技术 web开发
Visit annotations in context

Tags

token

后端技术

安全

web开发

架构

网站架构

HTTP

Annotators

caocao485

URL

zhihu.com/question/265033797
www.zhihu.com www.zhihu.com

互联网创业公司如何防御 DDoS 攻击？ - 知乎

1
1. caocao485 13 Dec 2022
  
  in Public
  
  互联网创业公司如何防御 DDoS 攻击？
  
  DDOS 安全网络安全
Visit annotations in context

Tags

DDOS

网络安全

安全

Annotators

caocao485

URL

zhihu.com/question/19581905
www.zhihu.com www.zhihu.com

现在比较好用的漏洞扫描和注入攻击的工具？ - 知乎

1
1. caocao485 13 Dec 2022
  
  in Public
  
  现在比较好用的漏洞扫描和注入攻击的工具？
  
  ddos sql注入网络安全安全攻击
Visit annotations in context

Tags

安全

攻击

ddos

网络安全

sql注入

Annotators

caocao485

URL

zhihu.com/question/21643167
www.zhihu.com www.zhihu.com

如何理解编程语言的类型安全性？ - 知乎

1
1. caocao485 13 Dec 2022
  
  in Public
  
  如何理解编程语言的类型安全性？
  
  类型系统类型安全 rust
Visit annotations in context

Tags

类型安全

类型系统

rust

Annotators

caocao485

URL

zhihu.com/question/35532790
www.zhihu.com www.zhihu.com

下面代码是线程不安全的代码，请问为什么很难跑出不安全的样例？ - 知乎

1
1. caocao485 12 Dec 2022
  
  in Public
  
  下面代码是线程不安全的代码，请问为什么很难跑出不安全的样例？
  
  线程安全 JVM Java 多线程并发a 并发
Visit annotations in context

Tags

并发a

并发

多线程

线程安全

Java

JVM

Annotators

caocao485

URL

zhihu.com/question/52309717
Aug 2022
tech.meituan.com tech.meituan.com

前端安全系列（二）：如何防止CSRF攻击？

1
1. caocao485 28 Aug 2022
  
  in Public
  
  CSRF的名气似乎
  
  csrf 安全
Visit annotations in context

Tags

安全

csrf

Annotators

caocao485

URL

tech.meituan.com/2018/10/11/fe-security-csrf.html
Jan 2022
Local file Local file

Untitled document

1
1. wendell 17 Jan 2022
  
  in Public
  
  这个PDF, 介绍了两种常见情况, 导致解析漏洞
  
  使用了多个不同的URL解析器
  
  实现标准之之间的冲突然后举了log4j的例子
  
  项目\URL安全性研究
Tags

项目\URL安全性研究

Annotators

wendell
Dec 2021
github.com github.com

GitHub - tangjie1/-Baseline-check: windows和linux基线检查，配套自动化检查脚本。纯手打。

1
1. rajianz 22 Dec 2021
  
  in Public
  
  windows&Linux基线检查配置文档和自动化脚本
  
  网络安全、
Visit annotations in context

Tags

网络安全、

Annotators

rajianz

URL

github.com/tangjie1/-Baseline-check

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

Tags

Annotators

URL