是指没有标签的数据量远大于有标签的监督问题。
Supervised Generative Model
Low-density Separation
假设处于非黑即白的二元世界之中,有多种方法可以解决这个问题。
1. Self-training
基本思想是先利用有标签的数据训练模型,在将其应用无标签的数据之中。然后再有选择的丢弃一些数据重新变回无标签的。不断重复上述过程直至收敛。
这个过程显然不能训练回归问题,因为在这个过程中模型根本不会发生变化。
在进行seft-training时,需要使用硬标签,使用软标签同样无法训练。
2. Entropy-based Regularization
在训练时,我们希望最后的y是越集中越方便预测的,所以可以使用信息熵考虑数据的差异程度,在原来的训练函数基础上增加信息熵即可。
3. Semi-supervised SVM
SVM解决这个问题就是将所有的可能性进行枚举,然后选择一个margin最大,错误最小的情况进行分类。
对于大量的数据,可以使用一笔一笔添加的方式节约运算。
Smoothness Assumption
基本思想就是越接近的点他们的标签会更相似。但是越接近不一定是直接的,可能是在某一个高密度区域相似。例如对于图像而言,两个图像像素相似性不能代表两个图的关系。