47 Matching Annotations
  1. Last 7 days
    1. In testing with an RTX 5090, DiffusionGemma spits out around 700 tokens per second. With a single Nvidia H100 AI accelerator, DiffusionGemma can produce 1,000+ tokens per second.

      文章提供了具体的性能测试数据,声称DiffusionGemma在RTX 5090上达到700 tokens/秒,在H100上达到1000+ tokens/秒。这些关键性能数据需要独立验证,以确认Google宣称的4倍速度提升是否准确。

    2. In testing with an RTX 5090, DiffusionGemma spits out around 700 tokens per second. With a single Nvidia H100 AI accelerator, DiffusionGemma can produce 1,000+ tokens per second.

      这是一个重要的性能数据声明,但缺乏详细测试环境信息。需要了解测试的具体设置、硬件配置、模型版本以及比较基准,以验证这些数字的准确性和可比性。

    1. Composer 2.5 is exceptionally intelligent & up to 10x more efficient than similarly capable models.

      Cursor公司声称其Composer 2.5模型比同等能力的模型效率高10倍。这是一个相当大胆的断言,但缺乏具体的基准测试数据或比较标准。虽然可能存在一些优化,但10倍的提升需要更详细的验证。

    2. Composer 2.5 is exceptionally intelligent & up to 10x more efficient than similarly capable models.

      Cursor声称其Composer 2.5模型可比类似能力的模型高效10倍。这是一个显著的性能提升声明,但缺乏具体测试基准和量化数据支持。'高达10倍'这样的表述范围很广,需要更具体的测试结果和比较方法来验证这一说法的可信度。

    1. Claude Opus 4.8, achieves a score of only 13.4%. Other models score significantly lower: GPT-5.5 receives 6.3%, Gemini 3.1 Pro 4.7%, and others even less.

      这些分数显示了当前最先进AI模型在生产级代码质量评估上的表现不佳,即使是最好的模型也只达到13.4%的分数。这表明AI代码生成仍有巨大改进空间,但缺乏绝对评分标准,难以判断这个分数的实际意义。

  2. May 2026
    1. ELF用Flow Matching完成生成,仅32个采样步生成质量就超过离散模型1024步结果

      这是一个惊人的效率对比数据。32步 vs 1024步意味着计算效率提升约32倍,这表明连续空间范式在计算效率上有质的飞跃。如果这一数据得到验证,将彻底改变AI模型的推理成本结构和部署模式,对现有基于token计费的商业模式构成挑战。

    1. Sessions can run in parallel, can persist while your machine is off, and can be triggered from third-party apps, such as Slack (coming in June)

      文章提到Vibe的会话功能可以在机器关闭时保持状态,这是一个重要的技术特性,但没有提供具体的性能指标如会话持续时间、资源消耗或并行处理能力。与同类产品相比,这种持久化会话功能可以提高用户体验,但缺乏具体数据来评估其性能优势或资源效率。

    1. long sessions hold 90%+ cache hit and input-token cost collapses to ~1/5

      这个数据点声称长会话缓存命中率超过90%,并将输入令牌成本降低至原来的1/5。这是一个相当显著的性能提升,但文章没有提供测试环境、数据集大小或对比基准。与同类AI工具相比,如此高的缓存命中率需要独立验证,特别是在不同类型和长度的编码任务中。

    1. on an iPhone 17 Pro Max, it encodes 12MP images as fast as 230ms, and decodes them in 150ms

      这些具体的编码和解码时间数据表明PICO在实际设备上的运行速度非常快,230ms编码和150ms解码的时间对于移动设备处理12MP图像来说非常高效。这一数据点与大多数需要高端GPU运行的ML编码器形成鲜明对比,增强了其实用性。

    1. their rate of bug-finding has increased by more than a factor of ten

      10倍的漏洞发现率提升是一个关键性能指标,表明AI模型在安全测试效率上的革命性突破。这一数据点特别有价值,因为它直接量化了AI与传统安全方法相比的性能提升。然而,文章没有提供具体的基准测试数据,如之前每小时发现多少漏洞,使得这个'10倍'的相对提升缺乏绝对参考。

    1. Opus 4.6 and 4.7 both have Math-ECIs within 1 point of their general ECI, compared to larger gaps for earlier models.

      这个数据点表明Claude在数学方面的表现差距可能在缩小。最新版本(4.6和4.7)的数学ECI与总体ECI差距在1分以内,而早期模型差距更大。这可能暗示Claude的数学能力正在改进,或者模型训练方法有所调整。这是一个积极的趋势,值得进一步追踪后续版本的表现。

    2. On average Claude models have an SWE-ECI 2.7 points higher than their general ECI, and a Math-ECI 1.8 points lower.

      这个数据点显示了Claude模型在软件工程和数学领域的表现差异。2.7分的软件工程优势和1.8分的数学劣势表明Claude确实在软件工程方面表现相对更好,而在数学方面相对较弱。这种差异虽然不算巨大,但方向性明显,与文章标题的论点一致。数据来自多个模型的平均值,具有一定统计意义。

    1. cutting delivery times by up to 70%

      文章提到Claude在生产环境中将交付时间缩短高达70%。这是一个显著的性能提升数据,但在不同应用场景中的实际效果可能有所差异。70%是一个引人注目的数字,但需要考虑基准测试的具体条件和行业差异。

    1. achieving 10% accuracy gains over their competitive manual model optimizations

      WPP在广告营销领域实现的10%准确率提升,表明AlphaEvolve在处理复杂、高维度的营销数据方面优于人类专家。这一提升可能直接影响广告投放效果和投资回报率,展示了AI在创意产业中的应用潜力。

    2. increase the ability of our trained Graph Neural Network (GNN) model to find feasible solutions for the problem from 14% to over 88%

      这是一个惊人的性能提升,从14%到88%的可行解发现能力增加了约6倍。这表明AlphaEvolve在电网优化问题上有突破性进展,显著减少了电网后处理步骤的需求,可能带来巨大的能源效率提升。

    1. achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025

      论文声称模型在2025/2026年的IMO和USAMO以及2024/2025年的IPhO比赛中达到金牌水平,这是一个非常高的标准。然而,这些是未来的比赛,目前缺乏实际验证数据,这一断言需要谨慎对待。

    1. SWE-Bench Verified score of 81.8 compared to Opus 4.6 (80.8) and Deepseek 4.0 Pro (80.0).

      SubQ在SWE-Bench Verified测试中得分为81.8,略高于Claude Opus 4.6(80.8)和Deepseek 4.0 Pro(80.0)。这个数据点表明SubQ在软件工程任务方面已达到前沿水平,进一步验证了其实用价值。

    2. SubQ Sparse Attention is 52× faster than FlashAttention in our architecture-level comparison, while requiring 63% less compute.

      SubQ稀疏注意力比FlashAttention快52倍,同时减少63%的计算需求。这是一个显著的性能优势数据,表明SubQ在架构层面实现了重大突破,不仅提升了速度,还大幅降低了计算成本。

    3. With a research result at 12 million tokens, SubQ's architecture reduces attention compute by almost 1,000x compared to other frontier models.

      这是一个惊人的性能提升数据,SubQ架构将注意力计算减少了近1000倍,同时支持1200万token的上下文。这个数据点极具说服力,表明SubQ在计算效率方面实现了数量级的突破,远超现有前沿模型。

    1. The best AI models in the world score below 0.5% on ARC-AGI-3—is this what you call AGI, guys?

      0.5%的准确率数据揭示了当前AI模型与通用人工智能(AGI)之间巨大的能力差距。这个极低的分数表明,尽管AI发展迅速,但在真正理解复杂推理方面仍处于非常初级的阶段。作者用讽刺的语气质疑行业过度炒作AGI进展的现象。

    1. Human advisors endorsed fraudulent investments at baseline rates of 13-14%, versus 0% across all LLMs, and suppressed warnings under pressure at two to four times the AI rate.

      令人震惊的是,人类顾问在正常情况下对欺诈性投资的认可率高达13-14%,而在AI系统中的认可率为0%,且在压力下人类顾问抑制警告的频率是AI系统的两到四倍。

  3. Apr 2026
    1. We spent days loading the system with hundreds of threads, refining rough edges and polishing corners that developers may never see.

      文章提到团队使用'数百个线程'进行了数天的压力测试,这是一个具体的工作量指标。'数百个'虽然不是精确数字,但表明系统设计考虑了大规模并发场景。这种大规模测试表明开发团队对系统稳定性的重视程度,但缺乏具体的线程数量上限和性能指标数据。

    2. All of this runs at Zed's famously buttery-smooth 120 fps

      文章声称Zed以120fps的流畅度运行,这是一个非常具体的技术性能指标。120fps远高于大多数编辑器的60fps标准,表明Zed在处理多代理任务时仍能保持极高的渲染性能。这个数据点对于评估Zed作为开发工具的响应能力具有重要意义,但文章未提供基准测试数据来支持这一说法。

    1. run-rate revenue has now surpassed $30 billion, up from approximately $9 billion at the end of 2025

      年收入从2025年底的约90亿美元增长到超过300亿美元,增长率超过233%,这是一个惊人的增长速度。这一数据表明AI服务市场的爆发式增长,以及Anthropic在商业化方面的显著进展。然而,如此高的增长率是否可持续存疑,且300亿美元的年收入对于一家成立不久的AI公司来说相当惊人,需要更多财务细节来验证。

    2. run-rate revenue has now surpassed $30 billion, up from approximately $9 billion at the end of 2025

      年收入从2025年底的约90亿美元激增至300亿美元,增长率超过230%。这一惊人的收入增长速度反映了AI市场的爆发式增长。然而,考虑到公司规模,这一收入数字需要谨慎看待,可能包含预付款或长期合同收入确认。

    3. run-rate revenue has now surpassed $30 billion, up from approximately $9 billion at the end of 2025

      年收入从90亿美元跃升至300亿美元,增长率超过233%,这是一个爆炸性的增长速度。这一增长率远超大多数科技公司的历史表现,反映了AI即服务(AIaaS)市场的巨大潜力。然而,如此高的增长率也带来了基础设施扩张的压力,需要与算力投资相匹配。

    1. 🔹 **Rich World Knowledge:** Leads all current open models, trailing only Gemini-3.1-Pro.

      这里提供了模型知识能力的相对排名:领先所有当前开源模型,但仅落后于Gemini-3.1-Pro。这是一个相对定位而非绝对性能数据。这种表述暗示DeepSeek-V4-Pro在知识广度上达到了接近顶级闭源模型的水平,这对需要广泛知识的应用场景具有重要意义。然而,缺乏具体的评估指标和分数,难以准确量化这一差距。

    2. 🔹 **Enhanced Agentic Capabilities:** Open-source SOTA in Agentic Coding benchmarks.

      虽然文中没有提供具体的基准测试数据,但声称在代理编程基准测试中达到开源SOTA(最先进水平)。这是一个重要断言,但缺乏具体量化指标。如果属实,这将代表DeepSeek在AI代理能力方面的重大突破,特别是在代码生成和执行任务上。需要查看技术报告中的具体基准测试数据来验证这一声明。

    1. The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining. A small model, by reading itself, can iterate toward answers that neither it nor any of its workers could reach in a single pass.

      文章描述了一种递归推理机制,称小模型通过自我迭代可以达到单次推理无法达到的结果,但未提供具体的性能提升数据或实验证据。这一断言缺乏量化依据,需要更多实验数据支持。

    2. Two variants are available: **Sakana Fugu Mini 🐟**, optimized with latency in mind, and **Sakana Fugu Ultra 🐡**, the full orchestration system, optimized for performance for demanding tasks.

      文章提到有两种变体:Mini(延迟优化)和Ultra(性能优化),但未提供具体的性能指标差异,如延迟降低百分比或吞吐量提升数据。这种缺乏具体量化参数的描述难以评估两种变体在实际应用中的性能差异。

    3. GPQAD | 94.4 | 90.9 | 92.7 | 92.4 | **95.1** | LCBv6 | 90.3 | 92.1 | 92.4 | 90.4 | **93.2** | SWEPro | 48.4 | 51.2 | _53.4_ | 51.3 | **54.2**

      性能对比表格显示,Sakana Fugu Ultra在三个基准测试中均优于竞争对手:GPQAD上达95.1%(超越Gemini 3.1的94.4%),LCBv6上达93.2%(超越GPT 5.4的92.1%),SWEPro上达54.2%(超越Opus 4.6的53.4%)。这些数据表明其多模型协调策略确实带来了性能提升,特别是在科学推理任务上优势明显。

    1. Reasoning models show both a one-off jump in performance and a roughly 2-3x faster trend compared to non-reasoning models.

      2-3倍的速度差异是一个非常显著的数字,表明推理模型与非推理模型之间存在明显的性能差距。这个倍数关系暗示了架构变化可能带来的性能飞跃,而非简单的线性改进。这一数据点支持了推理能力可能是AI进步关键驱动力的假设。

    2. The best-performing model across these three metrics was a pair of independent linear trends: one for reasoning models and one for non-reasoning models.

      这个发现表明推理模型和非推理模型的发展轨迹确实存在显著差异。这种分离的线性趋势模型在三个指标上表现最佳,100%的情况下优于其他模型,提供了强有力的统计证据支持AI能力加速的论点。

    1. A small model trained on fewer than 2,000 examples from real lawyers, bankers, and consultants recently beat all but the best frontier models on corporate legal work, at a fraction of the price.

      这一发现挑战了'规模和计算能力胜过一切'的AI发展范式。高质量专业化数据训练的小型模型在特定领域表现优于通用大模型,暗示AI发展可能从'越大越好'转向'更专业、更高效'的新阶段。

  4. May 2023
  5. Feb 2022
  6. Dec 2021
    1. Edge computing is an emerging new trend in cloud data storage that improves how we access and process data online. Businesses dealing with high-frequency transactions like banks, social media companies, and online gaming operators may benefit from edge computing.

      Edge Computing: What It Is and Why It Matters0 https://en.itpedia.nl/2021/12/29/edge-computing-what-it-is-and-why-it-matters/ Edge computing is an emerging new trend in cloud data storage that improves how we access and process data online. Businesses dealing with high-frequency transactions like banks, social media companies, and online gaming operators may benefit from edge computing.

  7. Mar 2021
  8. Oct 2020
  9. May 2020
  10. Apr 2019
  11. Oct 2017
    1. ‘Theforceoftheperformativeisthusnotinheritedfrompriorusage,butissuesforthpreciselyfromitsbreakwithanyandallpriorusage.Thatbreak,thatforceofrupture,istheforceoftheperformative,beyondallquestionoftruthormeaning.’[22]Forpoliticalsubjectivity,‘performativitycanworkinpreciselysuchcounter-hegemonicways.Thatmomentinwhichaspeechactwithoutpriorauthorizationneverthelessassumesauthorizationinthecourseofitsperformancemayanticipateandinstatealteredcontextsforitsfuturereception.’[23]Toconceiveruptureasasystemicortotalupheavalwouldbefutile.Rather,ruptureisamomentwherethefuturebreaksthroughintothepresent.[24]Itisthatmomentwhereitbecomespossibletodosomethingdifferentinorbysayingsomethingdifferent.

      Acá los actos futuros guían la acción presente y le dan permiso de ocurrir. Del mismo modo como el derecho a ser olvidado es un derecho futuro imaginado que irrumpe en la legislación presente, pensar un retrato de datos o campañas políticas donde éstos sean importantes, le da forma al activismo presente.

      La idea clave acá es hacer algo diferente, que ha sido el principio tras Grafoscopio y el Data Week, desde sus apuestas particulares de futuro, que en buena medida es discontinuo con las prácticas del presente, tanto ciudadanas, cono de alfabetismos y usos populares de la tecnología.

  12. Sep 2017
    1. Ifmakingrightsclaimsisperformative,itfollowsthattheserightsareneitherfixednorguaranteed:theyneedtoberepeatedlyperformed.Theircomingintobeingandremainingeffectiverequiresperformativity.Theperformativeforceofcitizenshipremindsusthatthefigureofthecitizenhastobebroughtintobeingrepeatedlythroughacts(repertoires,declarations,andproclamations)andconventions(rituals,customs,practices,traditions,laws,institutions,technologies,andprotocols).Withouttheperformanceofrights,thefigureofthecitizenwouldmerelyexistintheoryandwouldhavenomeaningindemocraticpolitics.
    1. At least since Doug Engelbart’s “mother of all demos” the introduction of new products has been accompanied by showmanship. Demonstrations are theater where possible uses for technology are presented (Smith, 2009). Hackathons have been argued to be the “front stage” for data and can be contrasted with the murky “back stage” of data production, munging, and interpretation (Gregg, 2014b). The difference with Balsamo might be that she does not put performance in scare quotes.

      Esto conecta las ideas de boostrapping vía infraestructura, de Engelbart, con la idea de demo como performance (espectáculo, obra viva) y la inversión infraestructural de Star, al traer al frente aquello que está al fondo (la producción de datos y su uso).