25 Matching Annotations
  1. Apr 2024
    1. 感觉记忆作为学习嵌入原始输入的表示,包括文本、图像或其他模态。短期记忆就像是上下文学习。它是短暂且有限的,因为它受到Transformer有限的上下文窗口长度的限制。长期记忆是代理人在查询时可以关注的外部向量存储,通过快速检索可访问。

      记忆建模

  2. Jan 2024
    1. 特别是在任务的性质或要求使得这样的合并成为可能且有效的情况下。合并的场景可能会因任务类型、复杂度和特定要解决的问题而异。

      为什么?

  3. Dec 2023
    1. 尽量避免让操作机制依赖于全局状态,因为在分布式系统中要保证全局状态的同步是非常困难的

      ???

  4. Mar 2023
    1. 为(S 替换 + D 删除 + C 正确)的字数,需要注意的是这并不等于原句总字数或者识别结果字数。

      为什么不等于原句总字数? 答案:因为可能没有正确的识别字,并且全错,见下文计算样例

    1. 这些路径中有一些的输出是一样的,比如都是”hello”

      为什么是一样的? 每一行只有五个选择

    1. 这里说的高频低频是指时域上采样点分帧后的频率,针对每一帧,作傅利叶变换得到频域的N个分量,这N个分量按照频率为横坐标,振幅为纵坐标。如果没有噪音,这N个分量振幅值应该随着频率增大逐渐递减,但因为噪音存在,在某一高频段处,振幅值出现反常,变得很大,导致信噪比很小,而预加重就是为了把高频段的信号都放大,从而增大高频段的信噪比。

      ????半个字都没看懂,需要重新看

  5. Feb 2023
    1. 5个为正的结果中有0.45∗5=2.250.45∗5=2.250.45 * 5 = 2.25是A“产生"的,有0.55∗5=2.750.55∗5=2.750.55 * 5 = 2.75个是B”产生"的

      为什么是乘法?

  6. Jan 2023
    1. mode averaging

      什么是mode averaging?只产生一个结果?应该不是,这一步已经是只想要一个了。和mode collapse有什么区别?

    2. 单模态分布

      单模态分布是什么

  7. Dec 2022
    1. 帕雷托法则向来被商业界视为铁律,其内涵认为企业界80%的业绩来自20%的产品。就此看法,商业经营看重的是销售曲线左端的少数畅销商品。曲线右端的多数冷门商品,被该定律定义为不具销售力且无法获利的区块。

      基于互联网的发展,少数商品在自动化的方式下,依然能快速的进行自我销售,从而以平均少量的销售成本带来巨大的效益。 key: 自动化带来的平均成本降低

    1. Comparing aggregation operations

      聚合操作的不同

    2. This GNN uses a separate multilayer perceptron (MLP) (or your favorite differentiable model) on each component of a graph; we call this a GNN layer. For each node vector, we apply the MLP and get back a learned node-vector. We do the same for each edge, learning a per-edge embedding, and also for the global-context vector, learning a single embedding for the entire graph.

      三层MLP之间有更新吗

  8. Nov 2022
    1. 计算复杂度

      網絡的計算複雜度

    2. 场景编码器的深度

      什麼是場景編碼器的深度?

    3. Wayformer模型系列,由两个主要组件组成:场景编码器和解码器。场景编码器主要由一个或多个注意编码器组成,用于总结驾驶场景。解码器是一个或多个标准transformer交叉注意模块,其输入学习的初始query,然后与场景编码交叉注意生成轨迹。

      Wayformer主要組成