3 Matching Annotations
  1. Oct 2021
  2. Apr 2020
    1. For input 𝐱i\x_\rc{i} each attention head produces a different output vector 𝐲ri\y_\rc{i}^\bc{r}. We concatenate these, and pass them through a linear transformation to reduce the dimension back to kk.

      像是attention后面加了一个线性回归 这样位置信息能被考虑进去

  3. Jan 2019
    1. beta分布与二项分布的共轭先验性质

      在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。比如,高斯分布家族在高斯似然函数下与其自身共轭 (自共轭)。