Data access inhibits independent research into hiring algorithms
论文最刺耳的政策呼吁:「我们是唯一一个独立开展大规模实证研究的团队」。在招聘算法已主宰数百万人命运的情况下,研究者竟然无法获得数据来研究它——这和制药公司不让独立研究者测试药物一样荒谬。立法强制数据开放(类似欧盟 DSA 的数据访问条款)可能是唯一出路。
Data access inhibits independent research into hiring algorithms
论文最刺耳的政策呼吁:「我们是唯一一个独立开展大规模实证研究的团队」。在招聘算法已主宰数百万人命运的情况下,研究者竟然无法获得数据来研究它——这和制药公司不让独立研究者测试药物一样荒谬。立法强制数据开放(类似欧盟 DSA 的数据访问条款)可能是唯一出路。
We conduct the largest empirical study of algorithmic hiring with data for 3.4 million real job applicants submitting 4 million applications to 156 employers across 11 market sectors.
迄今最大规模的招聘算法实证研究:340万真实求职者、400万份申请、156家雇主、11个行业。这种规模意义重大——此前所有研究都因数据获取壁垒停留在实验室层面,这是第一次在真实部署环境中验证理论担忧。
an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with single or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs
ENPIRE的四模块设计(EN-PI-R-E)是一个优雅的系统分解。关键在于E(Evolution)模块:智能体不只是执行预设的训练流程,而是分析失败日志、查阅文献、修改训练代码来应对失败模式。这是一种元级的自适应——系统不只是在数据上学习,还在算法上学习。这与AAR论文中自主研究的思路高度一致,但ENPIRE把它落地到了有物理约束的机器人场景。
the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration
这句话点出了整个领域的核心瓶颈,也是ENPIRE的出发点。编程智能体在数字环境里已经能做得很好——写代码、测试、看日志、改bug、循环迭代。但在机器人研究里,这个循环一直卡在物理世界的摩擦上:有人重置场景、有人判断任务是否成功。ENPIRE的核心贡献是把这两个步骤自动化,从而让数字世界成熟的智能体循环可以平移到物理世界。
The full process took three months, from the first prompt on March 4th to sharing the OAI-M1-03 results with independent experts on June 4th
三个月从提示词到同行评审——这是非常具体的时间锚点。传统药物化学研究从假设提出到验证发表,通常需要数月到数年。更短的假设-验证循环意味着研究者可以在同样时间内探索更多方向,从而从根本上改变科学发现的经济学。值得追踪的问题是:随着下一代模型和更自动化的工作流,这个三个月会压缩到多短?
we are at a critical juncture where the complexity of multi-agent interactions is outpacing existing safety models
资助截止日期是2026年8月,预计秋季宣布获奖者——这是极短的时间表,远快于通常18-24个月的科研资助周期。这种节奏本身就是一种信号:在AI能力快速进化的背景下,等待常规学术日程,意味着等到多智能体系统大规模部署后才开始研究其安全性——那时为时已晚。这种紧迫感,正在重塑AI安全研究的资助逻辑。
Building realistic, reproducible environments to evaluate, compare and accelerate progress across all areas of multi-agent safety. This includes virtual marketplaces, simulated ecosystems and multi-organisation workflows
沙盒和测试床被列为四大优先领域之首,这暗示了当前的根本困境:我们甚至没有标准的、可重现的环境来测试多智能体行为。这与单模型安全研究形成对比——后者有MMLU、TruthfulQA等标准化基准。多智能体安全研究目前的状态,相当于深度学习研究在ImageNet出现之前:大家都知道问题存在,但无法比较进展,无法在共同基础上积累知识。
AARs could bootstrap on non-outcome-gradable alignment problems
这是论文最具前瞻性的一句话,也是它与对齐研究深度绑定的理由。w2s监督的核心挑战是:当超人类AI超出人类评估能力时,我们怎么监督它?如果AAR能在有ground truth的设置下自主研究出好的监督方法,那么也许它能在没有ground truth的对齐问题上做同样的事——用相互验证、内部一致性、可解释性信号替代外部奖励。这是关于谁来研究对齐这一根本性问题的初步答案。
Directed AARs
解法很直觉:在起点处强制分散。但这背后有深层含义:AI研究的多样性不是涌现的,而是需要人工注入的。人类研究者因个人背景、审美偏好、偶然阅读而自然走向不同方向;AI研究员的均质性在探索效率上是系统性劣势,必须通过外部设计来弥补。
It's becoming clear that much of what advances the frontier is automatable; large-scale research progress is mostly a function of tools and resources, which dictate how fast you can run experiments, how many you can run at once, and how quickly you can get results.
这是文中最具争议性的哲学主张:「大部分前沿进展是可自动化的」。反驳:Transformer、RLHF等范式级突破不是「把已知实验跑得更快」的产物,而是概念上的跳跃。作者的反驳是:这些范式突破间隔多年,中间99%的进展靠的是规模化+调试+迭代。如果Claude已经擅长后者,那「前沿」就意味着:方向设定(人类)+大规模自动执行(AI)。这个分工假设成立的前提是:下一个Transformer级别的突破何时到来,以及它是否同样可以自动化。
our best model in November 2025 (Opus 4.5) beat the human choice 51% of the time; in April 2026 (Mythos Preview), this grew to 64%
研究判断力的进化:从51%(略好于随机)到64%,6个月内提升13个百分点。但这个设计本身值得仔细审视:实验选取的是「人类做出了次优选择」的时刻(n=129),因此这不是无偏的人机对比,而是「在人类容易出错的情境下,模型犯同样错误的频率有多低」。即便如此,从51%到64%意味着:模型不只是在执行层超越人类,在判断层也开始建立优势——而判断层正是这篇文章认为「人类最后的比较优势」所在。
the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute
AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。
By April 2026, Claude Mythos Preview was achieving ~52x. For calibration, a skilled human researcher would need four to eight hours to reach 4x.
代码优化任务:从2025年5月的~3x到2026年4月的~52x,一年内提升17倍。基准线:顶尖人类研究员4-8小时能达到4x。Mythos Preview在这个任务上比最优秀的人类快了约13倍。脚注7提醒绝对倍数依赖起始代码的优化空间,因此重要的是同条件下的对比而非绝对数字——执行层意义上的超人编程能力已经实现。
It's becoming clear that much of what advances the frontier is automatable; large-scale research progress is mostly a function of tools and resources, which dictate how fast you can run experiments, how many you can run at once, and how quickly you can get results.
这是文中最具争议性的哲学主张:「大部分前沿进展是可自动化的」。反驳:Transformer、注意力机制、RLHF等范式级突破不是「把已知实验跑得更快」的产物,而是概念上的跳跃。作者的反驳是:这些范式突破间隔多年,中间99%的进展靠的是「规模化+调试+迭代」。如果Claude已经擅长后者,那「前沿」就意味着:方向设定(人类)+大规模自动执行(AI)。这个分工假设成立的前提是:下一个Transformer级别的突破何时到来,以及它是否同样可以自动化。
our best model in November 2025 (Opus 4.5) beat the human choice 51% of the time; in April 2026 (Mythos Preview), this grew to 64%
研究判断力的进化:从51%(略好于随机)到64%,6个月内提升13个百分点。但这个设计本身值得仔细审视:实验选取的是「人类做出了次优选择」的时刻(n=129),因此这不是无偏的人机对比,而是「在人类容易出错的情境下,模型犯同样错误的频率有多低」。即便如此,从51%到64%的提升意味着:模型不只是在执行层超越人类,在判断层也开始建立优势——而判断层正是这篇文章认为「人类最后的比较优势」所在。
the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute
AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。注意这里的隐含逻辑:18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。
By April 2026, Claude Mythos Preview was achieving ~52x. For calibration, a skilled human researcher would need four to eight hours to reach 4x.
代码优化任务:从2025年5月的~3x到2026年4月的~52x,一年内提升17倍。基准线:顶尖人类研究员4-8小时能达到4x。也就是说Mythos Preview在这个任务上比最优秀的人类快了约13倍,同时消耗的时间可能只有人类的几分之一。脚注7提醒绝对倍数依赖起始代码的优化空间,因此重要的是同条件下的对比而非绝对数字——但这个框架下的对比结论已经足够震撼:「执行层」意义上的超人编程能力已经实现。
From anthropic.com
令人惊讶的是,这项研究由Anthropic Fellows团队完成,表明该公司正在积极投资前沿AI研究。这种对模型比较技术的重视反映了Anthropic对AI安全和透明度的承诺,同时也暗示了AI行业正在从单纯追求模型性能转向更精细的行为特征分析。
Subjective listening experiments show an interesting mix of agreement and disagreement among listeners, which can help or hinder analyses depending on their goal. Western staff notation is useful for precise comparison of related melodies, but often not well-suited for comparing across cultures. Cantometrics is well-suited for broad cross-cultural comparison, but less well-suited for comparing fine-grained differences within cultures or very broad comparisons between human and animal vocalisations. Automatic analyses allow for more detailed and objective comparisons of music and speech, but struggle to capture some of the complexities of polyphonic music and extract features such as scale tunings from the imprecision found in real singing. And we haven’t even touched on more sophisticated automated methods (e.g., Music Information Retrieval Toolbox [Lartillot et al., 2008]; Essentia [Bogdanov et al., 2013]; Librosa [McFee et al., 2015])16 or other comparative methods such as qualitative analysis or approaches based on Indigenous knowledge (for a very brief glimpse of those, see the Epilogue).
Overview of research methods: pros and cons.
subjective listening experiments
张律:你听,是不是能听出来black collared barbet 他们感情好不好?
phylogenetic comparative analysis
cross-species coevolution of different capacities.
在教學時我發現了一個頭痛的問題:為什麼自己認為已經講的非常清楚,但對方卻還是似懂非懂呢?這個問題在 “技能” 類的知識更加明顯。例如我對 Evernote 這套筆記軟體很有研究,但要我教會一個人俐落的使用 Evernote 卻非常困難 ; 又或是我對 “時間管理” 有許多實踐心得與反思,但要我說明白怎麼全面地做好生活/工作的時間管理,那又是另外一回事了…
我目前也遇到這樣的問題。解決之道,一開始是試著了解每一個學生想要透過我學到什麼?經過半年的挫折之後,我現在發現這樣的思考方向是時習指導老師,而非課室老師的方向。於是透過照半年不斷調整的心得,剛好帶一年級的導生,就用來試煉我擅長的“指尖記憶”小黑板記憶法,發現這一招有先達到我要的他們強制學習與背誦。但是第二部,開始帶入錯題本,但這只是不是我主科教授的東西,我要倒敘法教導生,目前成效不錯是因為他們不會懷疑,所以乖乖的聽話。
現自來到歷史重複的點:內外科第一次授課。 我從YT國外生理講師中,學習他的緩慢步調、解說趣點、更精準的觀念。但是要繼續落實一個有架構的康乃爾筆記法,仍是在教學技巧上有不自信的點。
落實康乃爾筆記: 一張白紙,化成四區 先介紹本課的學習重點:先從目錄看整體性 在看學習目標 請學生先寫下要學習的重點的問題有哪些? 一一確定同學們寫下問題的大綱(另一張白紙) 我開始講解解剖生理學。 講解一個段落,就停下來。 讓學生在第二張白紙寫下理解的重點,錯了沒關係。 繼續以上流程。 以上流程以番茄鐘時間管理法進行。每20分鐘停5分鐘,剛好一堂課時間,兩個couse.
再下一堂課一開始,整理上一堂課的散漫筆記。 同學將重點用便利貼先寫好。 打開課本,依據ppt講解,請請同學用便利貼貼在該貼的位置。 在詢問這樣的方法有沒有問題。
一樣20分鐘後,請同學打開康乃爾筆記本,將所有的重點寫在筆記區。 筆記區看完之後,查看有沒有遺漏或是錯誤。 看著筆記區,在提問區寫下問題。 檢查沒問題後。 遮住筆記區,看著提問區,試著回答問題,檢視自己可以回答的完整度。 全部完成後,在主題區的空格,寫上複習的時間:1天、7天14天、30天。完成後便打勾。
問題點一: 這樣精緻的教學法,我會很輕鬆,但是時間會不夠。 學生會鬧說沒有便利貼、沒有紙、麻煩 如何確認學生有正確進行間隔提取複習法?
exploratory case study
探究性案例研究
感觉是和不错的UI 自动化测试的工具
网格搜索、随机搜索或贝叶斯搜索
所以从数学上来说,需要论证存在最优超参。换一个思路,超参数描述了一个新的空间。最佳超参就是最优嵌入问题。需要证明存在一个解空间,可以使嵌入序列的差有限收敛。 这个几何描述需要重新整理。从定义新的空间开始。
这个PDF, 介绍了两种常见情况, 导致解析漏洞
强调•有害的大型藻华 (HMB) 越来越多地发生在中国沿海的广泛地理范围内。•总结和比较了三种 HMB 的不同起源和开花动态。•黄海大绿潮已采取措施有效缓解。•金潮的开花机制和HMBs的生态影响有待进一步研究。
绿潮生物量
4·3、商业化发展前景展望 (1)独立型微电网的发展前景展望: · 基于分布式光伏+储能的独立型微电网,最有前景 · 将首先在特殊应用场合取得突破(电动汽车充电、岛屿供电)
电动汽车充电等特殊场合应用独立型微电网技术发电
不去仔细研究确实不会发现存在这样的问题。这歌项目对20个品牌的牛仔裤的口袋进行研究,发现女士裤子的口袋比男士小很多,其中前面的口袋差距很大,后面的口袋差距较小。作者对此的考察是,所谓的时尚产生的潜规则:男人的口袋放东西,女人需要的是装饰,不需要一个会凸出的口袋。
新的海外版知网提供三种语言版本,相应的域名分别如下:简体中文版:https://chn.oversea.cnki.net ⭐️繁体中文版:https://tra.oversea.cnki.net英文版:https://oversea.cnki.net
`
他开发了一个简单的立方体机器人。它有四个轮子和两个电机,可以直行、转弯或绕圈旋转。该机器人旨在停靠在不同的 3D 打印机械外壳中,每个外壳都有特定的功能。一旦进入,机器人本质上就充当了思想和马达。通过在每个外壳内快速旋转——把它想象成电动螺丝刀内的简单电动机——机器人可以完成各种各样的事情。
哈佛大学有一个历时75年的研究项目,叫哈佛成人发展研究(Harvard Study of Adult Development),这个项目于1938年启动,研究人员密切跟踪并调查了724名参与者的生活。2015年,项目的现任主导者罗伯特·瓦尔丁格(Robert Waldinger)教授在TED上做了一次演讲,用简单易懂的语言概括了他们的研究发现:美好人生,从良好的人际关系开始。一个人在80岁时是否健康与幸福,最重要的预测指标,不是财富,也不是事业上的成功,而是他在50岁的时候对于人际关系的满意度。
HaptiHug 远程拥抱交互背心
远程拥抱交互背心是日本庆应大学的舘研究室(Tachi Lab)的概念性感觉增强系统iFeel IM! 的一部分。背心可将远程交流者的情感转化为一个真实的拥抱。发明者的目标是创造“一种情感的4D 沉浸式体验”。我们真能完全复制出亲身会面的真实感觉吗?(承蒙丰桥技术科学大学电子启发跨学科研究所[EIIRIS] 的DzmitryTse tserukou)
在最近的一项研究中,DeepMind 提出了一种机器学习模型,能够自动生成此类草图,且结合了通用语言建模技术以及现成的数据序列化协议,具有足够的灵活性来适应各领域的复杂性,并且对于无条件合成和图像到草图的转换都表现良好。
具体而言,研究者开展了以下工作:
Nazmus Saquib是麻省理工学院的一名博士生。他与Adobe研究院的研究员们就如何运用新媒介更好的展示教学内容、帮助教师提高课程吸引力开展了一项技术试验。
发起这个实验项目的初衷,是Saquib想改变教师在授课中总照着PPT干巴巴念着板书的模式。受到AR增强现实的启发,拥有人工智能开发和机器深度学习背景的Saquib和团队想要将“肢体语言”引入一项交互式演示的系统中,辅助教师更好的将知识可视化、生动化的展现给学生,他们将此开发系统命名为Interactive Body-Driven Graphics for Augmented Video Performance,简称为AR实时交互式系统。
这个系统可以让用户独立设计互动方案和原创故事,让用户在不同的场景里用自然的肢体动作和姿势操控图表元素。
使用该系统,老师会和现实场景(课堂)中不存在的事物同时出现。老师还必须是“戏精”本人,在现场使用肢体动作和姿势实时操控这些图表信息,真正达到“声情并茂”的演绎出教学内容的目标。
与图文互动,除了让学生们觉得老师上课新颖有趣、知识点更好理解外,也让教师们将图文、声音、语言和肢体动作等多重传递信息的方式相结合,极大的帮助他们更好的表达信息。
这个系统让我们看到了除幻灯片外,还有更具互动性与趣味性的工具可被教师在上课时使用。这款工具还打破了传统AR程序前期编程后期无法更改的特点,提供实时增强现实的特效。
Saquib说只要教师会做PPT,并通过简单的培训,就可以自主掌握这款AR交互系统。他展示了他是如何使用这款工具做到用户设计交互表达并讲好一个故事的。
教师在打开系统后,会看到这个人形的大框架。蓝色的“人架子”上,每一个圆点代表着人体可移动关节的19支点,如:头、颈、肩、肘、手、腰、腿部关节等。右边是Saquib用鼠标画出来的一把雨伞,他还向系统导入添加了云和雨滴,用于辅助教学的图像元素。导入的过程就像PPT导入图片一样简单。
接下来,Saquib想要在演示时用自己的左手撑伞。要完成这一套动作,只要拖动鼠标,找到“左手”支点,将“左手”与“雨伞”相连即可,相连的位置也是可以设计的。
在雨伞旁边,会出现五个黄色的小图标,这些小圆圈代表了该图像元素本身将如何运动:从上到下依次代表了:移动、旋转、改变透明度、变大变小和速度。这些功能是Saquib和团队成员们通过对演讲者演示时行为的研究得到的最常用的五种形变方式。
此外,系统中还预设好了一些手势的“快捷方式”,帮助教师用简介的动作完成会重复出现的高频互动反应,如“食指指向”选定后,“双手竖起大拇指”控制图表保持固定,“手部左右摆动”控制方向移动,摆动控制图表摆动等。
虚拟画面现实场景中“实时反馈”是Saquib团队AR实时交互系统的亮点。
通过深度学习(machinelearning),即利用人工智能将人类行为动作的数据收入到数据库中,Kinect就可以感知并识别演示者动作的目的。当Saquib举起手指向斜上方时,一个图表就会出现在视频上, Kinect会迅速反应并判断“操作者”做出这一指令动作的目的,将之前设置好的图表信息实时显示到屏幕上。
比如这个航海的舵盘,当屏幕上的Saquib握着舵盘“航行”的时候,图表信息会随着Saquib的移动而做出变化。
这就是Saquib一直强调的关键词“实时”互动。这款工具的亮点和特色正是在视频中实时显示增强现实的AR画面,现场配合教师,完成一场自定义的“表演”。