1 Matching Annotations
  1. Sep 2018
    1. Introduction

      Unlabeled data: \(U\), from \(u=R\) to \(u=U+R\)

      Labeled data: \(R\), from \(r=1\) to \(r=R\)

      Supervised learning:

      \( \{(x^r, \hat{y}^r)\}^R_{r=1}\)

      Semi-supervised learning:

      \( \{(x^r, \hat{y}^r)\}^R_{r=1}\) ,\(\{x^u\}^{R+U}_{u=R}\)

      • U >> R
      • Transductive learing: unlabeled data is the testing data.
      • Inductive learning: unlabeled data is not the testing data.

      直接使用 testing data 不是作弊么,李宏毅老师说,使用 label of testing data 才是作弊。

      transductive learning 的典型算法是 KNN,对于 unlabeled data 我们计算其距离各个中心点的距离。然后重新计算该簇的中心点。可见我们确实使用了 unlabeled data 来学习模型。

      以 kaggle 竞赛为例,有些 kaggle 竞赛是直接可以下载 testing dataset 的,只是 testing data 没有 label 而已。