错题录 - 《机器学习知识库》

以下()不属于线性分类器最佳准则?
A.Fisher准则
B.贝叶斯分类
C.支持向量机
D.感知准则函数
解析：线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。
2. 贝叶斯公式中如下p(Al B)=(p(Bl A)p(A))/p(B)，其中，条件概率是()
A.P(A)、P(B)
B.P(B)
C.P(A)0
D.P(B|A)
解析:
P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。 P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。 P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。 P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。
3. 朴素贝叶斯是一种特殊的贝叶斯分类器,特征变量是X,类别标签是C,它的一个假定是:()
以0为均值，sqr(2)/2为标准差的正态分布
特征变量X的各个维度是类别条件独立随机变量
P(X|C)是高斯分布
各类别的先验概率P(C)是相等的

解析:
朴素贝叶斯的条件就是每个变量相互独立。
4. 逻辑回归选择均方差函数作为损失函数，这句话是否正确(

不确定
正确
不正确

解析:
逻辑回归的损失函数一般是交叉熵，不选择均方差函数。
5. 是否能用神经网络算法设计逻辑回归算法?

解析:
是的，神经网络是一种通用逼近器，因此能够实现线性回归算法。
6. ID3算法在实际场景中会存在一些问题，下列哪项不是ID3算法的问题()

对属性值多的属性过度敏感
无法处理连续型属性
计算效率低
值缺失问题
下列有关决策树，描述错误的是()
易于过拟合
对于各类别样本数量不一致数据，信息增益偏向于那些具有更多数值的特征。
能够同时处理数据型和常规性属性
适合低维数据

解析:
决策树优点： 1）不需要任何领域知识或参数假设。 2）适合高维数据。 3）简单易于理解。 4）短时间内处理大量数据，得到可行且效果较好的结果。 5）能够同时处理数据型和常规性属性。缺点： 1）对于各类别样本数量不一致数据，信息增益偏向于那些具有更多数值的特征。 2）易于过拟合。 3）忽略属性之间的相关性。 4）不支持在线学习。
8. 一个系统越是有序，信息熵就越低;反之，一个系统越是混乱，信息熵就越高。这句话是否正确（)

正确
不确定
不正确

解析:
数据越是有序，信息熵就越低，越混乱，就越高。
9. 模型的高bias是什么意思,我们如何降低它?

其他所有
增加数据点
在特征空间中增加特征
在特征空间中减少特征

解析:
bias表示模型预测值的均值与样本实际值的差距，它反映了模型对样本数据的拟合能力。bias越低，说明模型越复杂，参数越多，对样本数据的拟合效果越好，但是容易过拟合；bias越高，说明模型越简单，参数太少，对样本数据的拟合效果不好，这就是欠拟合。降低bias的方法是增加数据的特征维数，从而实现模型参数的增加，提高模型复杂度，增强模型对样本数据的拟合能力，拟合能力越高bias越低。增加样本数量并没有增加模型训练时的参数，所以不会提高模型复杂度，也就无法降低bias，C错误。在特征空间中增加特征就是增加样本数据的输入特征维数，所以A错误，B正确。
10. 在回归模型中，下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting）中影响最大?()

使用常数项
多项式阶数
更新权重w时，使用的是矩阵求逆还是梯度下降

解析:
选择合适的多项式阶数非常重要。如果阶数过大，模型就会更加复杂，容易发生过拟合；如果阶数较小，模型就会过于简单，容易发生欠拟合。
11. 以下关于监督学习和无监督学习的说法，错误的是（)
A.无监督学习与监督学习的一个最大的区别就是无监督学习只有输入，没有输出
B.监督学习是使用标注过的数据训练模型，然后对未标注的数据进行预测，而无监督学习是直接使用没有标注过的数据进行处理
C.无监督学习的主要目标是寻找数据中存在的某些有意义的内容，比如说将数据划分成几个不同的分组，或者发现数据中存在异常值等
D.无监督学习和监督学习都是机器学习中的一部分，它们没有什么区别
解析:
（1）无监督学习与监督学习的一个最大的区别就是无监督学习只有输入，没有输出。（2）监督学习是使用标注过的数据训练模型，然后对未标注的数据进行预测；而无监督学习是直接使用没有标注过的数据进行处理；（3）无监督学习的主要目标是寻找数据中存在的某些有意义的内容，比如说将数据划分成几个不同的分组，或者发现数据中存在异常值等。所以选择D
12. 有N个样本，一半用于训练，一半用于测试。若增大N值，则训练误差和测试误差之间的差距会如何变化?

增大
减小

解析:
增加数据，能够有效减小过拟合，减小训练样本误差和测试样本误差之间的差距。
13. 假设你训练SVM后，得到一个线性决策边界，你认为该模型欠拟合。在下次迭代训练模型时，应该考虑:()

增加训练数据
计算更多变量
减少训练数据
减少特征

解析:
欠拟合可以通过增加用于训练的特征，来提升模型的数据拟合能力，C选项中计算更多的变量是指特征向量的维数增加了，相当于增加了计算的变量。所以C正确，D错误；单纯增加训练数据并不能提升模型复杂度，无法解决欠拟合的问题，A错误；同理，B也错误。
14. 在训练完SVM之后，我们可以只保留支持向量，而舍去所有非支持向量。仍然不会影响模型分类能力。这句话是否正确?

正确
错误

解析:
SVM仅需要支持向量就可以实现分类，非支持向量可以去除。
15. “带核的SVM不能解决非线性问题”，这句话是否正确()

不正确
不确定
正确

解析:
核函数的本质是两个函数的内积，通过核函数将其隐射到高维空间，在高维空间非线性问题转化为线性问题, SVM得到超平面是高维空间的线性分类平面
16. sVM和SVR解决问题有什么不同?o

SVM是要使到超平面最近的样本点的“距离”最大，SVR则是要使到超平面最远的样本点的“距离”最小
两者都是要使到超平面最远的样本点的“距离”最小
两者都是要使到超平面最近的样本点的“距离”最大
SVM是要使到超平面最远的样本点的“距离”最小，SVR则是要使到超平面最近的样本点的“距离”最大，

解析:
SVR回归与SVM分类的区别在于，SVR的样本点最终只有一类，它所寻求的最优超平面不是SVM那样使两类或多类样本点分的“最开”，而是使所有的样本点离着超平面的总偏差最小。所以SVM是要使到超平面最近的样本点的“距离”最大；SVR则是要使到超平面最远的样本点的“距离”最小。
17. 拉格朗日乘子法是一种寻找多元函数在一组约束下的( )的方法，通过引入拉格朗日乘子，可将有d个变量与k个约束条件的优化问题转换为具有d+K个变量的无约束优化问题。

驻点
极点
极值
导数

解析:
拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法
18. 特征缩放的一些方法不包括(

均值归一化
标准化
最大最小归一化
均方误差

解析:
特征缩放的方法一般包括：均值归一化、最大最小归一化、标准化。
19. 在梯度下降算法中，关于如何确定运动方向，下列说法正确的是（)

可以任意选择运动方向
需要求出每个自变量的偏导数来计算梯度，进而确定下降速度最快的方向即为运动方向。
只需要参考其中一个自变量偏导数的变化率来确定方向即可
只需要参考其中一两个自变量偏导数的变化率来确定方向即可

解析:
在一个平面上的一条曲线，如果要寻找这个曲线下降速度最快的点，需要使用求导的方式，可以求出这个曲线在某个点的斜率，与其他位置的斜率进行比较，从而找到这个下降最快的点。对于曲面，利用偏导数表示函数图形上某一点，沿某个方向的变化率。求出每个变量的偏导数可以计算梯度，即可求的下降速度最快的方向。所以选择D
20. 线性回归的基本假设不包括哪个?()

解释变量是确定性变量不是随机变量，与随机误差项之间相互独立
随机误差项彼此相关
对于解释变量的所有观测值，随机误差项有相同的方差
随机误差项是一个期望值为0的随机变量
以下哪种技术对于减少数据集的维度会更好?
删除缺少值太多的列
删除数据差异较大的列
删除不同数据趋势的列
都不是
数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测(集成学习)，以下对集成学习说法正确的是:()
在集成学习中，使用“平均权重”而不是“投票”会比较好
单个模型都是用的一个算法
单个模型之间有高相关性
单个模型之间有低相关性

解析:
集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下，集成学习中的多个学习器都是同质的”弱学习器”，单个模型之间有低相关性
23. 对于随机森林和GradientBoosting Trees,下面说法正确的是:1在随机森林的单个树中,树和树之间是有依赖的，而GradientBoosting Trees中的单个树之间是没有依赖的2这两个模型都使用随机特征子集,来生成许多单个的树3我们可以并行地生成GradientBoosting Trees单个树,因为它们之间是没有依赖的4 GradientBoosting Trees训练模型的表现总是比随机森林好

1 and 2
2 and 4
2
1, 3 and 4

解析:
1 随机森林是基于bagging的, 在随机森林的单个树中, 树和树之间是没有依赖的。2 Gradient Boosting trees是基于boosting的，且GradientBoosting Trees中的单个树之间是有依赖关系。3 这两个模型都使用随机特征子集, 来生成许多单个的树。所以题干中只有第二点是正确的，选A。更多详情请参见《通俗理解kaggle比赛大杀器xgboost》：https://blog.csdn.net/v_JULY_v/article/details/81410574，循序渐进，先后理解：决策树、CBDT、xgboost。
24. 以下说法中错误的是()
A、SVM对噪声（如来自其他分部的噪声样本）具备鲁棒性
B、在adaboost算法中，所有被分错样本的权重更新比例不相同
C、boosting和bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率确定其权重
D、给定n个数据点，如果其中一半用于训练，一半用户测试，则训练误差和测试误差之间的差别会随着n的增加而减少的
解析:
A 软间隔分类器对噪声是有鲁棒性的。B 请参考http://blog.csdn.net/v_july_v/article/details/40718799C boosting是根据分类器正确率确定权重，bagging不是。D 训练集变大会提高模型鲁棒性。

1）聚类是一种典型的无监督学习，其定义是将输入数据使用聚类算法划分成几种不同的分组。比如图中的实例，将输入数据划分成两个分组。（2）聚类和监督学习中的分类问题很像，其实他们两者是截然不同的算法。（3）分类问题通过对输入数据进行标注，我们明确知道可以将数据分为哪几类，并且明确的知道每类数据的意义是什么。而聚类问题则不同，其在真正计算之前是不知道会将数据分为几组的。（4）分类表示确定的可能性，确定的含义；聚类表示未知的可能性，未知的含义。所以选择C
错题录 - 图1
错题录 - 图2
解析:

若直接用初级学习器的训练集来产生次级训练集，则过拟合风险会比较大；一般会通过交叉验证等方式，用训练初级学习器未使用的样本来产生次级学习器的训练样本。
错题录 - 图3
错题录 - 图4
解析:

NB的核心在于它假设向量的所有分量之间是独立的。在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设所有特征之间相互独立，这样才能将联合概率拆分。
根据基分类器的生成方式，集成学习可以分为两大类：
ü 个体的学习器之间存在着很强的依赖关系，必须串行生成的方法，代表的是Boosting(演进)
ü 另一种不存在强的依赖关系，可以同时生成的并行化方法：
1） Bagging
2）Random Forest

Boosting和Bagging区别

ü 从偏差-方差分解的角度看：
• Boosting主要关注降低偏差，能基于泛化性能相当弱的学习器构建出很强的集成
• Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更加明显
ü 从训练集的角度看：
• Bagging的训练集的选择是随机的，各轮训练集之间相互独立，采用均匀取样
• Boosting的各轮训练集的选择与前面各轮的学习结果有关，根据错误率来取样
• Boosting的分类精度要优于Bagging
ü 从预测函数的角度看：
• Bagging的各个预测函数没有权重，而Boosting是有权重的；
• Bagging的各个预测函数可以并行生成，而Boosting的各个预测函数只能顺序生成
ü 其他角度看：
• 对于像神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量时间开销
• 两者都可以有效地提高分类的准确性。在大多数数据集中，boosting的准确性比bagging高。但在有些数据集中，boosting会导致过拟合
ü 偏差(Bias)和方差(Variance)如下图:
错题录 - 图5
错题录 - 图6
错题录 - 图7
错题录 - 图8 错题录 - 图9
错题录 - 图10
错题录 - 图11
错题录 - 图12