13.1未标记样本

image.png
图一
这样通过与外界的交互来将部分未标记样本转变为有标记样本,如果不与这些未标记的瓜进行交互,得不到它们的信息,还能否利用未标记样本来提高泛化性能吗?
答案是”Yes”
image.png
图二
学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning)。在现实应用中容易收集到大量未标记样本,而获取”标记”非常耗力,半监督学习就提供了一条简单的途径。
利用未标记样本的方法:

  • 1.簇类假设,如上图二所示,假设数据存在簇结构,同一个簇的样本属于同一个类别。
  • 2.流形假设,假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值,流形假设是聚类假设的推广,但流形假设对输出值没有限制,比聚类假设的适用范围更广。(聚类假设考虑的是类别标记,通常用于分类任务)
  • 3.聚类假设和流形假设的本质是”相似的样本拥有相似的输出”。 未标记样本、生成式方法、半监督SVM - 图3image.png

    13.2 生成式方法

    image.png
    给定样本未标记样本、生成式方法、半监督SVM - 图6,其真实类别标记为未标记样本、生成式方法、半监督SVM - 图7,其中未标记样本、生成式方法、半监督SVM - 图8为所有可能的类别,假设样本由高斯混合模型生成,且每个类别对应一个高斯混合成分。换言之,数据样本是基于如下概率密度生成:
    未标记样本、生成式方法、半监督SVM - 图9

    解析:高斯混合分布的定义式.

其中,混合系数未标记样本、生成式方法、半监督SVM - 图10是样本未标记样本、生成式方法、半监督SVM - 图11属于第未标记样本、生成式方法、半监督SVM - 图12个高斯混合成分的概率;未标记样本、生成式方法、半监督SVM - 图13未标记样本、生成式方法、半监督SVM - 图14为该高斯混合成分的参数。
未标记样本、生成式方法、半监督SVM - 图15表示模型未标记样本、生成式方法、半监督SVM - 图16未标记样本、生成式方法、半监督SVM - 图17的预测标记,未标记样本、生成式方法、半监督SVM - 图18表示样本未标记样本、生成式方法、半监督SVM - 图19隶属的高斯混合成分。由最大化后验概率可知
未标记样本、生成式方法、半监督SVM - 图20

解析:从公式第1行到第2行是对概率进行边缘化(marginalization);通过引入未标记样本、生成式方法、半监督SVM - 图21并对其求和未标记样本、生成式方法、半监督SVM - 图22以抵消引入的影响.从公式第2行到第3行推导如下: 未标记样本、生成式方法、半监督SVM - 图23

其中
未标记样本、生成式方法、半监督SVM - 图24

解析:根据13.1 未标记样本、生成式方法、半监督SVM - 图25 因此 未标记样本、生成式方法、半监督SVM - 图26

为样本未标记样本、生成式方法、半监督SVM - 图27由第未标记样本、生成式方法、半监督SVM - 图28个高斯混合成分生成的后验概率,未标记样本、生成式方法、半监督SVM - 图29未标记样本、生成式方法、半监督SVM - 图30由第未标记样本、生成式方法、半监督SVM - 图31个高斯混合成分生成且其类别为未标记样本、生成式方法、半监督SVM - 图32的概率。由于假设每个类别对应一个高斯混合成分,因此未标记样本、生成式方法、半监督SVM - 图33仅与样本未标记样本、生成式方法、半监督SVM - 图34所属的高斯混合成分未标记样本、生成式方法、半监督SVM - 图35有关,可用未标记样本、生成式方法、半监督SVM - 图36代替,不失一般性,假定第未标记样本、生成式方法、半监督SVM - 图37个类别对应于第未标记样本、生成式方法、半监督SVM - 图38个高斯混合成分,即未标记样本、生成式方法、半监督SVM - 图39当且仅当未标记样本、生成式方法、半监督SVM - 图40,否则未标记样本、生成式方法、半监督SVM - 图41.
不难发现,式子(13.2)中估计未标记样本、生成式方法、半监督SVM - 图42需知道样本的标记,因此仅能使用标记数据;而未标记样本、生成式方法、半监督SVM - 图43不涉及样本标记,因此有标记和未标记数据均可利用,通过引入大量的未标记数据,对这一项的估计可望由于数据量的增长更为准确,于是式子(13.2)整体的估计可能会更准确,由此可清楚地看出未标记数据为什么能提高分类模型的性能?
给定标记样本集未标记样本、生成式方法、半监督SVM - 图44
未标记样本集未标记样本、生成式方法、半监督SVM - 图45.假设所有样本独立同分布,且都是由同一个高斯混合模型生成的,用极大似然法来估计高斯混合模型的参数未标记样本、生成式方法、半监督SVM - 图46的对数似然是
未标记样本、生成式方法、半监督SVM - 图47

解析:第二项很好解释,当不知道类别信息的时候,样本未标记样本、生成式方法、半监督SVM - 图48的概率可以用式子(13.1)表示,所有无类别信息的样本未标记样本、生成式方法、半监督SVM - 图49的似然是所有样本的乘积,因为未标记样本、生成式方法、半监督SVM - 图50函数是单调的,所以也可以将未标记样本、生成式方法、半监督SVM - 图51函数作用域这个乘积消除因为连乘产生的数值计算问题,第一项引入了样本的标签信息,由 未标记样本、生成式方法、半监督SVM - 图52 可知,这项限定了样本未标记样本、生成式方法、半监督SVM - 图53只可能来自于来自未标记样本、生成式方法、半监督SVM - 图54所对应的高斯分布.

式子(13.4)由两项组成:基于有标记数据未标记样本、生成式方法、半监督SVM - 图55的有监督项和基于未标记数据未标记样本、生成式方法、半监督SVM - 图56的无监督项.显然,高斯混合模型参数估计可用EM算法求解,迭代更新式如下:

  • E步:根据当前模型参数计算未标记样本未标记样本、生成式方法、半监督SVM - 图57属于高斯混合成分的概率

未标记样本、生成式方法、半监督SVM - 图58

解析:参见式子13.3,这项可以理解成样本未标记样本、生成式方法、半监督SVM - 图59属于类别标签未标记样本、生成式方法、半监督SVM - 图60(或者说由第未标记样本、生成式方法、半监督SVM - 图61个高斯分布生成)的后验概率.其中未标记样本、生成式方法、半监督SVM - 图62可以通过有标记样本预先计算出来.即: 未标记样本、生成式方法、半监督SVM - 图63

  • M步:基于未标记样本、生成式方法、半监督SVM - 图64更新模型参数,其中未标记样本、生成式方法、半监督SVM - 图65表示第未标记样本、生成式方法、半监督SVM - 图66类的有标记样本数目

未标记样本、生成式方法、半监督SVM - 图67

  1. 推导:这项可以由

未标记样本、生成式方法、半监督SVM - 图68 而得,而将13.4的两项分别记为: 未标记样本、生成式方法、半监督SVM - 图69 首先,未标记样本、生成式方法、半监督SVM - 图70未标记样本、生成式方法、半监督SVM - 图71求偏导,未标记样本、生成式方法、半监督SVM - 图72求和号中只有未标记样本、生成式方法、半监督SVM - 图73的项能留下来,即 未标记样本、生成式方法、半监督SVM - 图74 未标记样本、生成式方法、半监督SVM - 图75未标记样本、生成式方法、半监督SVM - 图76求导,参考9.33的推导: 未标记样本、生成式方法、半监督SVM - 图77 综上, 未标记样本、生成式方法、半监督SVM - 图78未标记样本、生成式方法、半监督SVM - 图79,两边同时左乘未标记样本、生成式方法、半监督SVM - 图80并移项: 未标记样本、生成式方法、半监督SVM - 图81 上式中,未标记样本、生成式方法、半监督SVM - 图82可以作为常量提到求和号外面,而未标记样本、生成式方法、半监督SVM - 图83,即第未标记样本、生成式方法、半监督SVM - 图84类样本的有标记样本数目,因此: 未标记样本、生成式方法、半监督SVM - 图85 即得式子13.6

未标记样本、生成式方法、半监督SVM - 图86

推导:类似于13.6由未标记样本、生成式方法、半监督SVM - 图87得,化简过程同13.6过程类似首先未标记样本、生成式方法、半监督SVM - 图88未标记样本、生成式方法、半监督SVM - 图89求偏导,类似于13.6 未标记样本、生成式方法、半监督SVM - 图90然后未标记样本、生成式方法、半监督SVM - 图91未标记样本、生成式方法、半监督SVM - 图92求偏导,类似于式子9.35 未标记样本、生成式方法、半监督SVM - 图93 综合可得: 未标记样本、生成式方法、半监督SVM - 图94未标记样本、生成式方法、半监督SVM - 图95,两边同时右乘未标记样本、生成式方法、半监督SVM - 图96并移项: 未标记样本、生成式方法、半监督SVM - 图97 两边同时左乘未标记样本、生成式方法、半监督SVM - 图98: 未标记样本、生成式方法、半监督SVM - 图99 即可得13.7

未标记样本、生成式方法、半监督SVM - 图100

推导:类似式子9.36,写出未标记样本、生成式方法、半监督SVM - 图101得拉格朗日形式 未标记样本、生成式方法、半监督SVM - 图102 类似于式子9.37,对未标记样本、生成式方法、半监督SVM - 图103求偏导。对于未标记样本、生成式方法、半监督SVM - 图104,求导结果与式子9.37的推导过程一样 未标记样本、生成式方法、半监督SVM - 图105 对于未标记样本、生成式方法、半监督SVM - 图106,类似于式子13.6和13.7的推导过程: 未标记样本、生成式方法、半监督SVM - 图107 上式推导过程中,重点注意变量是未标记样本、生成式方法、半监督SVM - 图108是常量;最后一行未标记样本、生成式方法、半监督SVM - 图109相对于求和变量为常量,因此作为公因子提到求和号外面,未标记样本、生成式方法、半监督SVM - 图110为第未标记样本、生成式方法、半监督SVM - 图111类样本的有标记样本数目,综合两项结果: 未标记样本、生成式方法、半监督SVM - 图112未标记样本、生成式方法、半监督SVM - 图113并且两边同乘以未标记样本、生成式方法、半监督SVM - 图114,得 未标记样本、生成式方法、半监督SVM - 图115 结合式子9.30发现,求和号内即为后验概率未标记样本、生成式方法、半监督SVM - 图116,即 未标记样本、生成式方法、半监督SVM - 图117 对所有混合成分求和,得 未标记样本、生成式方法、半监督SVM - 图118 这里未标记样本、生成式方法、半监督SVM - 图119,因此未标记样本、生成式方法、半监督SVM - 图120,根据9.30中未标记样本、生成式方法、半监督SVM - 图121表达式可知 未标记样本、生成式方法、半监督SVM - 图122 再结合加法满足交换律,所以 未标记样本、生成式方法、半监督SVM - 图123 以上分析过程中,未标记样本、生成式方法、半监督SVM - 图124形式与未标记样本、生成式方法、半监督SVM - 图125等价,其中未标记样本、生成式方法、半监督SVM - 图126为未标记样本集得样本个数;未标记样本、生成式方法、半监督SVM - 图127其中未标记样本、生成式方法、半监督SVM - 图128为有标记样本集的样本个数;将这些结果代入 未标记样本、生成式方法、半监督SVM - 图129 解出未标记样本、生成式方法、半监督SVM - 图130未标记样本、生成式方法、半监督SVM - 图131其中未标记样本、生成式方法、半监督SVM - 图132为样本总个数,移项即得未标记样本、生成式方法、半监督SVM - 图133最后带入整理解得 未标记样本、生成式方法、半监督SVM - 图134 整理即得13.8

以上过程不断迭代直至收敛,即可获得模型参数,然后由式子(13.3)和(13.2)就能对样本进行分类.
将上述过程中的高斯混合模型换成混合专家模型,朴素贝叶斯模型等即可推导出其他的生成式半监督学习方法,在有标记数据极少的情况下往往比其他方法性能更好.这个方法有一个关键:模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合;否则利用未标记数据会降低泛化性能.

13.3 半监督SVM

不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面;
考虑未标记样本时,S3VM试图找到能将两类标记样本分开,且穿过数据低密度区域的划分超平面,如图13.3所示,这里的基本假设是”低密度分隔”(low-density separation)。
image.png
图13.3
半监督支持向量机中最著名的是TSVM(Transuctive Support Vector),是针对二分类问题的学习方法。TSVM试图考虑对未标记样本进行各种可能的标记指派(label assignment),即尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面一旦超平面确定,未标记样本的标记指派就是其预测结果
给定未标记样本、生成式方法、半监督SVM - 图136未标记样本、生成式方法、半监督SVM - 图137,其中未标记样本、生成式方法、半监督SVM - 图138未标记样本、生成式方法、半监督SVM - 图139,未标记样本、生成式方法、半监督SVM - 图140,TSVM的目标是为未标记样本、生成式方法、半监督SVM - 图141中的样本给出预测标记未标记样本、生成式方法、半监督SVM - 图142,使得
未标记样本、生成式方法、半监督SVM - 图143
未标记样本、生成式方法、半监督SVM - 图144

解析:这个公式和公式6.35基本一致,除了引入了无标记样本的松弛变量未标记样本、生成式方法、半监督SVM - 图145和对应的权重系数未标记样本、生成式方法、半监督SVM - 图146和无标记样本的标记指派未标记样本、生成式方法、半监督SVM - 图147

其中,未标记样本、生成式方法、半监督SVM - 图148确定了一个划分超平面,未标记样本、生成式方法、半监督SVM - 图149为松弛向量,未标记样本、生成式方法、半监督SVM - 图150对应于有标记样本,未标记样本、生成式方法、半监督SVM - 图151对应于未标记样本,未标记样本、生成式方法、半监督SVM - 图152是由用户指定的用于平衡模型复杂度、有标记样本与未标记样本重要程度的折中参数。
标记指派未标记样本是一个穷举过程,当未标记样本很少的时候才可能直接求解,这时需考虑更高效的优化策略。
image.png
在对未标记样本进行标记指派及调整的过程中,有可能出现类别不平衡问题,即某类的样本远多于另一类,这将对SVM的训练造成困扰,为了减轻不平衡性带来的不利隐形,对图13.4的算法稍加改进;将优化目标中的未标记样本、生成式方法、半监督SVM - 图154拆分为未标记样本、生成式方法、半监督SVM - 图155未标记样本、生成式方法、半监督SVM - 图156两项,分别对应基于伪标记而当作正、反例使用的未标记样本,并在初始化时令
未标记样本、生成式方法、半监督SVM - 图157
其中未标记样本、生成式方法、半监督SVM - 图158未标记样本、生成式方法、半监督SVM - 图159为基于伪标记而当作正、反例使用的未标记样本数。
在图13.4算法的第6—10行中,若存在一对未标记样本未标记样本、生成式方法、半监督SVM - 图160未标记样本、生成式方法、半监督SVM - 图161,其标记指派未标记样本、生成式方法、半监督SVM - 图162未标记样本、生成式方法、半监督SVM - 图163不同,且对应的松弛变量满足未标记样本、生成式方法、半监督SVM - 图164,则意味着未标记样本、生成式方法、半监督SVM - 图165未标记样本、生成式方法、半监督SVM - 图166很可能是错误的,需对二者进行交换后重新求解式子(13.9),这样每轮迭代后均可使式子(13.9)的目标函数值下降。
搜寻标记指派可能出错的每一对未标记样本进行调整,是一个涉及巨大计算开销的大规模优化问题,因此,半监督SVM研究的一个重点是如何设计出高效的优化求解策略 未标记样本、生成式方法、半监督SVM - 图167