有些情况需要使用非线性方法,如:小数据集、低信噪比数据、稀疏数据。在线性方法的基础上对输入进行非线性变化,便可以适用,这类更一般性的方法称为 basic-function methods,在第五章讨论。

模型的基本问题

模型定义

给定输入向量第三章 Linear Methods for Regression - 图1,预测输入第三章 Linear Methods for Regression - 图2,线性模型的基本形式如下:
第三章 Linear Methods for Regression - 图3
第三章 Linear Methods for Regression - 图4有很多不同的来源:

  • 数值输入
  • 数值输入的变换。如:log、平方、根号。
  • 基础扩展,如:第三章 Linear Methods for Regression - 图5等,得到多项式表征。
  • 定性输入的数字编码。如:onehot。
  • 变量间的相互关系。如:第三章 Linear Methods for Regression - 图6

无论输入是什么,模型从参数层面上来说是线性

模型求解

最常用的估计方法是 最小平方。
第三章 Linear Methods for Regression - 图7
第三章 Linear Methods for Regression - 图8求导可得:
第三章 Linear Methods for Regression - 图9
第三章 Linear Methods for Regression - 图10
对一阶导等于0进行求解,得到唯一解:
第三章 Linear Methods for Regression - 图11

几何解释:第三章 Linear Methods for Regression - 图12 ,即投影。
image.png

求解的问题

1、非满秩时(non-full-rank)。输入向量存在冗余是常见的情况,此时是非满秩的。解决办法有:对第三章 Linear Methods for Regression - 图14去除冗余列(冗余样本)。大部分软件自带这个功能。
2、rank deficiencies(缺秩)。输入向量维度大于数据数据量,此时需要过滤一些特征或者使用正则。

无偏与有偏估计

模型的进一步优化

模型选择(subset selection)

对于最小平方误差估计,有两个缺点:

  • 预测准确率。最小平方估计容易出现低bias高variance的情况。把一些系数设置成0或者缩小可以提高预测准确率。这样的原因是 牺牲了部分bias,减少了预测的variance,因此提高了整体的预测准确率。
  • 解释性。奥姆剃须刀原理,从众多模型中,选择较为简单的那个。

参数组合验证。hard的形式去除系数。
减少参数==》控制方差。??
**

参数收缩方法-(shrinkage methods)

软约束系数。

Ridge

Lasso

方法对比
0处处不可导?
image.png