多示例学习（Multi Instance Learning） - 《深度学习》

剪辑自：https://blog.csdn.net/tkingreturn/article/details/39959931
补充：https://wenku.baidu.com/view/a66fab43f12d2af90242e6da.html

根据训练数据的歧义性大小，大致可以把在该领域进行的研究划分为三种学习框架：监督学习、非监督学习和强化学习。监督学习的样本示例带有标记；非监督学习的样本示例没有标记，因而该学习模型的歧义性较大。多示例学习可以认为是与三种传统学习框架并列的第四种学习框架。由Dietterich等人于1997年提出，提出的背景是通过一项对分子活性的研究，文章是”Solving the Multiple-Instance Problem with Axis Parallel Rectangles“ ，下面就对多示例问题做一个概念性的介绍。

多示例学习可以被描述为：假设训练数据集中的每个数据是一个包(Bag)，每个包都是一个示例(instance)的集合,每个包都有一个训练标记，而包中的示例是没有标记的；如果包中至少存在一个正标记的示例，则包被赋予正标记；而对于一个有负标记的包，其中所有的示例均为负标记。（这里说包中的示例没有标记，而后面又说包中至少存在一个正标记的示例时包为正标记包，是相对训练而言的，也就是说训练的时候是没有给示例标记的，只是给了包的标记，但是示例的标记是确实存在的，存在正负示例来判断正负类别）。通过定义可以看出，与监督学习相比，多示例学习数据集中的样本示例的标记是未知的，而监督学习的训练样本集中，每个示例都有一个一已知的标记；与非监督学习相比，多示例学习仅仅只有包的标记是已知的，而非监督学习样本所有示例均没有标记。但是多示例学习有个特点就是它广泛存在真实的世界中，潜在的应用前景非常大。

下面讲到的内容是Dietterich在97年的那篇文章中的一些理解，感兴趣的可以接着看，知道在什么背景下得出的多示例学习问题，是怎样通过分子活性得出的。分子活性判断可以用来制药，即判断哪些分子活性高，哪些分子活性低，但是有个问题就是同一个分子会有不同形状(化学上学过)，而生物化学家目前只知道哪些分子适于制药，并不知道具体分子的哪一种形状起到了决定性作用。如果直接使用监督学习框架，将适于制药的分子的所有形状都作为正例，那么正例中的噪声会很高，因为适于制药的分子的一些形状是不适于制药的，所以简单认为适于制药的分子所有形状都是适合制药的，会导致训练数据集中存在大量假正例(false positive)，使学习过程受到严重的干扰，为了解决这些困难，Dietterich等人采用基于射线的分子外形表示方法。具体的可以参考论文，一个简单的例子就是下图所示：

多示例学习（Multi Instance Learning） - 图1

依次记录由远点发出的8条射线与曲线的交点与原点之间的距离，得到一个8维的向量(x1,x2,….x8)，论文中对分子的每个形状都表示成了166维的特征向量，即包中的每个示例是一个166维的特征向量。

[1] 杨志武，《多示例学习算法研究》，硕士论文
[2] T.G. Dietterich, R.H. Lathrop, and L.T. Perez, “Solving the Multiple-Instance Problem with Axis Parallel Rectangles,”Artificial Intelligence,vol. 89, pp. 31-71, 1997.