有些情况需要使用非线性方法,如:小数据集、低信噪比数据、稀疏数据。在线性方法的基础上对输入进行非线性变化,便可以适用,这类更一般性的方法称为 basic-function methods,在第五章讨论。
模型的基本问题
模型定义
给定输入向量,预测输入
,线性模型的基本形式如下:
有很多不同的来源:
- 数值输入
- 数值输入的变换。如:log、平方、根号。
- 基础扩展,如:
等,得到多项式表征。
- 定性输入的数字编码。如:onehot。
- 变量间的相互关系。如:
无论输入是什么,模型从参数层面上来说是线性。
模型求解
最常用的估计方法是 最小平方。
对求导可得:
对一阶导等于0进行求解,得到唯一解:
求解的问题
1、非满秩时(non-full-rank)。输入向量存在冗余是常见的情况,此时是非满秩的。解决办法有:对去除冗余列(冗余样本)。大部分软件自带这个功能。
2、rank deficiencies(缺秩)。输入向量维度大于数据数据量,此时需要过滤一些特征或者使用正则。
无偏与有偏估计
模型的进一步优化
模型选择(subset selection)
对于最小平方误差估计,有两个缺点:
- 预测准确率。最小平方估计容易出现低bias高variance的情况。把一些系数设置成0或者缩小可以提高预测准确率。这样的原因是 牺牲了部分bias,减少了预测的variance,因此提高了整体的预测准确率。
- 解释性。奥姆剃须刀原理,从众多模型中,选择较为简单的那个。
参数组合验证。hard的形式去除系数。
减少参数==》控制方差。??
**
参数收缩方法-(shrinkage methods)
Ridge
Lasso
方法对比
0处处不可导?