依据数据类型的不同,对一个问题建模有不同的方式。依据不同的学习方式和输入数据,机器学习主要分为以下四种学习方式。
监督学习
特点:监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签。训练一个预测模型,将输入数据映射到标签的过程。
常见应用场景:监督式学习的常见应用场景如分类问题和回归问题。
算法举例:常见的有监督机器学习算法包括支持向量机,朴实贝叶斯,逻辑回归,K邻近,决策树,随机森林,AdaBoost以及线性判别分析等。深度学习也是大多数以监督学习的方式呈现。
非监督式学习
特点:在非监督学习中,数据并不被特别标识,适用于你具有数据集但无标签的情况。学习模型是为了推断出数据的一些内在结构。
常见应用场景:常见的应用场景包括关联规则的学习以及聚类等。
算法举例:常见算法包括Apriori算法以及k-Means算法。
半监督学习
特点:在此学习方式下,输入数据部分被标记,部分没有被标记,这种学习模型可以用来进行预测。
常见应用场景:应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,通过对已标记数据建模,在此基础上,对未标记数据进行预测。
算法举例:常见算法如图论推理算法或者拉普拉斯支持向量机等。
弱监督学习
特点:弱监督学习可以看做是有多个标记的数据集合,次集合可以是空集,单个元素,或包含多种情况(没有标记,有一个标记,和有多个标记)的多个元素。 数据集的标签是不可靠的,这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。已知数据和其一一对应的弱标签,训练一个智能算法,将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少,比如相对于分割的标签来说,分类的标签就是弱标签。
算法举例:举例,给出一张包含气球的图片,需要得出气球在图片中的位置及气球和背景的分割线,这就是已知弱标签学习强标签的问题。
监督学习有哪些步骤
- 数据集的创建和分类:对数据集进行标注,然后将数据集分为训练集和验证集。
- 数据增强:对数据进行增强减少其他包含在数据集下的干扰信息。
- 特征工程:特征工程包括特征提取和特征选择。常见的手工特征有尺度不变特征变换,方向梯度直方图等。在大量使用深度学习之后,很大程度上不用再关注特征工程。因为,最常用的卷积神经网络本身就是一种特征提取和选择的引擎。
- 构建预测模型和损失:构建合适的预测模型得到对应输入的输出。为了保证模型输入输出的一致性,可以通过构建模型预测和标签之间的损失函数的方式,常见的损失函数有交叉熵,均方差等。
- 训练:选择合适的模式和超参数进行初始化,其中超参数比如支持向量机中核函数,误差项惩罚权重等。将特征数据输入到模型中,通过合适的优化方法不断缩小输出与标签之间的差距。优化方法最常见的就是梯度下降法以及其变种,使用梯度下降法的前提是优化目标函数对于模型是可导的。
- 验证和模型选择:训练完训练集后,需要进行模型的测试。利用测试集来验证模型是否可以准确的输出目标结果,在这个阶段,会通过调整和模型相关参数来重复2,3步骤。
- 测试及应用:当有了一个准确的模型,就可以将该模型部署到你的应用程序中。
