Hypothesis

11 Matching Annotations

Jul 2026
deep-reinforce.com deep-reinforce.com

https://deep-reinforce.com/ornith_1_0.html

1
1. fxp007 03 Jul 2026
  
  in Public
  
  Despite having only 35B parameters, it even surpasses Qwen 3.5-397B on Terminal-Bench 2.1 (64.4 vs. 53.5)
  
  ①数字：35B参数规模以64.4击败397B的53.5。③非共识：打破“规模即一切”的暴力美学共识。证明了在特定垂直领域（如Agentic Coding），通过高质量的自我改进式强化学习训练，小模型不仅能跑赢大模型，还能大幅降低推理部署成本。
  
  non-consensus scaling-laws model-efficiency
Visit annotations in context

Tags

scaling-laws

model-efficiency

non-consensus

Annotators

fxp007

URL

deep-reinforce.com/ornith_1_0.html
May 2026
www.huxiu.com www.huxiu.com

https://www.huxiu.com/article/4861200.html

1
1. fxp007 29 May 2026
  
  in Public
  
  20亿参数对比同体量自回归模型、千亿参数LLaDA2.0，连续路线的scaling曲线健康有效。
  
  这是一个重要的模型规模对比数据。20亿参数的连续模型能媲美千亿参数的自回归模型，表明连续空间范式在参数效率上有巨大优势。这暗示着未来AI模型可能不再单纯追求参数规模，而是转向更高效的架构设计，对行业资源分配和技术路线产生深远影响。
  
  data-point model-scaling parameter-efficiency
Visit annotations in context

Tags

data-point

parameter-efficiency

model-scaling

Annotators

fxp007

URL

huxiu.com/article/4861200.html
sakana.ai sakana.ai

Sakana AI

1
1. fxp007 08 May 2026
  
  in Public
  
  TRINITY transferred zero-shot to four unseen tasks (AIME, BigCodeBench, MT-Bench, and GPQA). On average, the evolved coordinator surpassed every individual constituent model in its pool, including GPT-5, Gemini 2.5-Pro, and Claude-4-Sonnet.
  
  作者声称一个仅20K参数的协调者能够超越GPT-5等顶级大模型，这一结论与行业对模型规模与能力关系的普遍认知相悖，提出了一个极具挑战性的反直觉观点。
  
  non-consensus zero-shot-transfer model-scaling
Visit annotations in context

Tags

zero-shot-transfer

model-scaling

non-consensus

Annotators

fxp007

URL

sakana.ai/trinity/
sakana.ai sakana.ai

https://sakana.ai/fugu-beta/

1
1. fxp007 01 May 2026
  
  in Public
  
  The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining. A small model, by reading itself, can iterate toward answers that neither it nor any of its workers could reach in a single pass.
  
  大多数人认为模型的能力受其规模和训练数据的限制，需要更大模型或重新训练才能提升性能。但作者提出小模型通过自我递归调用可以在推理时动态扩展能力，无需重新训练就能达到单个模型无法企及的高度。这挑战了规模即能力的行业共识，暗示小模型可能通过自省机制实现突破性能力。
  
  non-consensus model-scaling self-improvement
Visit annotations in context

Tags

self-improvement

model-scaling

non-consensus

Annotators

fxp007

URL

sakana.ai/fugu-beta/
Apr 2026
sakana.ai sakana.ai

https://sakana.ai/fugu-beta/

1
1. fxp007 24 Apr 2026
  
  in Public
  
  The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining. A small model, by reading itself, can iterate toward answers that neither it nor any of its workers could reach in a single pass.
  
  大多数人认为模型性能提升需要更大的参数规模或重新训练，但作者提出了一种反直觉的方法：通过递归调用自身，小模型可以在推理时自我迭代，达到单次推理无法达到的答案质量。这挑战了我们对模型规模与能力关系的传统认知。
  
  counterintuitive model-scaling inference-time
Visit annotations in context

Tags

inference-time

model-scaling

counterintuitive

Annotators

fxp007

URL

sakana.ai/fugu-beta/
huggingface.co huggingface.co

https://huggingface.co/papers/2604.14531

1
1. fxp007 24 Apr 2026
  
  in Public
  
  On a 150-class benchmark, the surrogate fully replaces the teacher
  
  大多数人认为复杂分类任务需要大型模型才能处理，小型代理模型只能处理简单任务。但作者展示了一个150类复杂任务中，小型代理模型完全能够替代教师模型，这挑战了'越大越好'的主流认知，证明了高效路由的潜力。
  
  non-consensus model-scaling efficiency
Visit annotations in context

Tags

efficiency

model-scaling

non-consensus

Annotators

fxp007

URL

huggingface.co/papers/2604.14531
aisle.com aisle.com

https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier

2
1. fxp007 17 Apr 2026
  
  in Public
  
  Because small, cheap, fast models are sufficient for much of the detection work, you don't need to judiciously deploy one expensive model and hope it looks in the right places. You can deploy cheap models broadly, scanning everything, and compensate for lower per-token intelligence with sheer coverage and lower cost-per-token.
  
  这一观点提出了AI安全的经济新模式，通过广泛部署小型廉价模型来弥补单一大模型的不足。这种'广撒网'策略可能比依赖少数昂贵模型更有效，尤其在大规模代码库扫描场景中，为AI安全的经济可行性提供了新思路。
  
  economic-model deployment-strategy cost-scaling
2. fxp007 17 Apr 2026
  
  in Public
  
  The capability rankings reshuffled completely across tasks. There is no stable best model across cybersecurity tasks. The capability frontier is jagged.
  
  这一发现揭示了AI安全能力的'锯齿状前沿'现象，不同模型在不同安全任务上的表现差异巨大。这表明不存在'一刀切'的最佳安全模型，而是需要根据具体任务选择合适的模型，这对AI安全系统的设计有重要启示。
  
  model-evaluation security-tasks capability-scaling
Visit annotations in context

Tags

capability-scaling

security-tasks

model-evaluation

economic-model

cost-scaling

deployment-strategy

Annotators

fxp007

URL

aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier
arxiv.org arxiv.org

https://arxiv.org/abs/2604.05091

1
1. fxp007 16 Apr 2026
  
  in Public
  
  On a single H200 GPU with 1.5TB host memory, MegaTrain reliably trains models up to 120B parameters.
  
  令人惊讶的是：仅使用一块配备1.5TB主机内存的H200 GPU就能训练1200亿参数的模型，这打破了人们对大规模模型必须依赖多GPU集群的固有印象。这一技术突破可能使超大规模模型训练变得更加普及和经济。
  
  surprising gpu-training model-scaling
Visit annotations in context

Tags

gpu-training

surprising

model-scaling

Annotators

fxp007

URL

arxiv.org/abs/2604.05091
huggingface.co huggingface.co

https://huggingface.co/papers/2604.04771

1
1. fxp007 08 Apr 2026
  
  in Public
  
  Without any architectural modification, MinerU2.5-Pro achieves 95.69 on OmniDocBench v1.6, improving over the same-architecture baseline by 2.71 points and surpassing all existing methods including models with over 200× more parameters.
  
  大多数人认为更大的模型架构必然带来性能提升，但作者仅通过数据工程和训练策略优化，在保持1.2B参数架构不变的情况下，超越了参数量超过200倍的现有模型，这挑战了'越大越好'的行业共识，证明了数据质量的重要性。
  
  counterintuitive model-scaling data-engineering
Visit annotations in context

Tags

data-engineering

model-scaling

counterintuitive

Annotators

fxp007

URL

huggingface.co/papers/2604.04771
Jun 2020
arxiv.org arxiv.org

Spatial interactions in urban scaling laws

1
1. ErikStuchly 26 Jun 2020
  
  in BehSci
  
  Altmann, E. G. (2020). Spatial interactions in urban scaling laws. ArXiv:2006.14140 [Physics]. http://arxiv.org/abs/2006.14140
  
  is:article lang:en spatial interaction urban scaling law analysis independence generative model modeling model comparison
Visit annotations in context

Tags

analysis

spatial interaction

independence

generative model

lang:en

modeling

is:article

model comparison

urban scaling law

Annotators

ErikStuchly

URL

arxiv.org/abs/2006.14140

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL