1.假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:( )1 这个被重复的特征在模型中的决定作用会被加强2 模型效果相比无重复特征的情况下精确度会降低3 如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。4 当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题5 NB可以用来做最小二乘回归
    A:全部都正确
    B:全部不正确
    C:2 4
    D:1 2 4
    分值:2 参考答案:C
    2.朴素贝叶斯是一个低方差还是高方差模型?()
    A:低方差
    B:高方差
    C:方差高低视情况而定
    分值:2 参考答案:A
    3.下列关于逻辑回归中激活函数说法不正确的是 ( )A、常用的激活函数有Sigmoid函数、Relu函数B、Sigmoid函数可以将负无穷到正无穷的范围转换为0~1之间C、Sigmoid函数的表达式为:D、逻辑回归中使用激活函数的目的是减少误差
    A:A
    B:B
    C:C
    4.以下哪个应用场景不适合采用逻辑回归分类算法?
    A:房价走势预测
    B:芯片不良率分类预测
    C:学生录取可能性分类预测
    D:心脏病分类预测
    分值:2 参考答案:A
    5.机器学习中的逻辑回归算法使用了我们高数当中的一个函数,这个函数是( )
    A:对数函数
    B:Sigmoid函数
    C:指数函数
    D:Tan函数
    分值:2 参考答案:B
    6.在训练逻辑回归模型之前需要对特征进行标准化。
    A:是
    B:否
    分值:2 参考答案:B
    7.以下哪种方法能最佳地适应逻辑回归中的数据?
    A:最小平方差
    B:最大似然估计
    C:欧几里得空间距离
    D:以上都不是
    分值:2 参考答案:B
    8.下面关于决策树算法说法错误的是 ( )
    A:信息增益选择特征偏向于“纯度”较好的特征作为优先项
    B:信息熵是度量样本纯度最常用的一种指标
    C:ID3算法不仅能处理离散型数据,还能处理连续型数据
    D:ID3算法可能会导致模型的泛化能力下降的问题
    分值:2 参考答案:C
    9.哪些机器学习算法不需要做归一化( ):
    A:线性回归
    B:逻辑回归
    C:KNN
    D:SVM
    E:决策树
    分值:2 参考答案:E
    10.决策树作为一种的机器学习算法,可以利用树形结构解决分类和回归问题。下面关于决策树算法说法错误的是 ( )
    A:常见的决策树算法包括ID3、C4.5和CART算法
    B:C4.5算法中属性选择使用信息增益率,避免了对属性值多的属性过度敏感
    C:CART算法的基尼指数与ID3算法的信息增益都是用于属性选择
    D:信息增益、信息增益率、基尼指数的计算结果不会影响决策树结构
    分值:2 参考答案:D
    11.下列有关决策树,描述错误的是( )
    A:对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。
    B:能够同时处理数据型和常规性属性
    C:适合低维数据
    D:易于过拟合
    分值:2 参考答案:C
    12.决策树中熵的概念是什么()
    A:衡量决策树规模
    B:比较数据分布情况
    C:比较不同特征的分类效果
    D:比较数据量大小
    分值:2 参考答案:C
    13.一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。这句话是否正确( )
    A:正确
    B:不正确
    C:不确定
    分值:2 参考答案:A
    14.关于欠拟合(under-fitting),下面哪个说法是正确的?( )
    A:训练误差较大,测试误差较小
    B:训练误差较小,测试误差较大
    C:训练误差较大,测试误差较大
    分值:2 参考答案:C
    15.下列说法正确的是( )
    A:负梯度方向是使函数值下降最快的方向
    B:当目标函数是凸函数时,梯度下降法的解是全局最优解
    C:以上都是
    分值:2 参考答案:C
    16.假如我们利用 Y 是 X 的 3 阶多项式产生一些数据(3 阶多项式能很好地拟合数据)。那么,下列说法正确的是(单选)? 1. 简单的线性回归容易造成高偏差(bias)、低方差(variance)2. 简单的线性回归容易造成低偏差(bias)、高方差(variance)3. 3 阶多项式拟合会造成低偏差(bias)、高方差(variance)4. 3 阶多项式拟合具备低偏差(bias)、低方差(variance)
    A:1和3
    B:2和4
    C:2和3
    D:1和4
    分值:2 参考答案:D
    17.若直接用初级学习器的训练集来产生次级训练集,则过拟合风险会比较大;一般会通过()等方式,用训练初级学习器未使用的样本来产生次级学习器的训练样本。
    A:交叉验证
    B:归一化
    C:正则化
    D:失活层
    分值:2 参考答案:A
    19.数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是 :( )
    A:单个模型之间有高相关性
    B:单个模型之间有低相关性
    C:在集成学习中,使用“平均权重”而不是“投票”会比较好
    D:单个模型都是用的一个算法
    分值:2 参考答案:B