Semi-supervised Learning – Have a nice day

是指没有标签的数据量远大于有标签的监督问题。

假设处于非黑即白的二元世界之中，有多种方法可以解决这个问题。

基本思想是先利用有标签的数据训练模型，在将其应用无标签的数据之中。然后再有选择的丢弃一些数据重新变回无标签的。不断重复上述过程直至收敛。

这个过程显然不能训练回归问题，因为在这个过程中模型根本不会发生变化。

在进行seft-training时，需要使用硬标签，使用软标签同样无法训练。

在训练时，我们希望最后的y是越集中越方便预测的，所以可以使用信息熵考虑数据的差异程度，在原来的训练函数基础上增加信息熵即可。

SVM解决这个问题就是将所有的可能性进行枚举，然后选择一个margin最大，错误最小的情况进行分类。

对于大量的数据，可以使用一笔一笔添加的方式节约运算。

基本思想就是越接近的点他们的标签会更相似。但是越接近不一定是直接的，可能是在某一个高密度区域相似。例如对于图像而言，两个图像像素相似性不能代表两个图的关系。