维度灾难:随着维度的增多,问题的复杂性(或计算代价)呈指数级增长的线性。是很多问题困难的根本来源,例如经典或量子多体问题,基于第一性原理的药物和材料设计、蛋白质折叠和非牛顿流体

    维度灾难给机器学习带来的影响
    距离的失效
    随着维数的增加,单个维度对距离的影响越来越小,任意样本间的距离趋于相同,在高维空间,距离不hi那么有效。

    样本稀疏性:使用的特征越多,数据就会变得越稀疏,从而导致分类器的分类效果就会越差。维度灾难还会造成搜索空间的数据稀疏程度分布不均。事实上,围绕原点的数据(在超立方体的中心)比在搜索空间的角落处的数据要稀疏得多。

    过度拟合:所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。

    计算复杂度
    随着维度的增加,计算复杂度指数增长,只能近似求解,得到局部最优解而非全局最优解

    如何应对维度灾难
    特征选择与降维
    奥卡姆剃刀:“如无必要,勿增实体”
    机器学习应用:在能够获得较好的拟合效果前提下,尽量使用较为简单的模型
    特征选择:选取特征子集
    降维:使用一定变换,将高维数据转换为低维数据,PCA,流行学习,t-SNE等
    正则化
    对学习算法的修改,正则化是一种为了减小测试误差的行为。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。

    核技巧
    如果有一个算法,它的输入向量x只以标量积的形式出现,那么可以用一些其他的核来替换这个标量积。利用了高维的好处,避免了高维的计算量。