正则化项:
XGBoost 正则化项:
知识蒸馏:
- hard outputs:
- hard loss(交叉熵损失):
- 带温度 T 的 softmax:
- 使用带温度 T 的 softmax 求得 soft outputs
和 soft targets
- soft loss(KL 散度):
| 激活函数名称 | 激活函数公式 | 导数 |
|---|---|---|
| Sigmoid | ||
| Tanh | ||
| ReLU |
可以用 KL 散度、交叉熵等来衡量两个分布的差异:
- 分布 p 的熵:
- 分布 p 和 q 之间的KL 散度:
- 分布 p 和 q 之间的交叉熵损失:
- 交叉熵 = 熵 + KL散度,即
- 深度学习中,p 为数据的真实概率分布,是已知的,最小化交叉熵损失来让模型输出的分布与真实分布近似,这时候求交叉熵和求 KL 散度是一致的
不同优化方法的参数更新:
- SGD:
- Momentum:
- AdaGrad:
- Adam:
gt%2C%5C%20v_t%3D%5Cbeta_2v%7Bt-1%7D%2B(1-%5Cbeta2)g_t%5E2#card=math&code=m_t%3D%5Cbeta_1%20m%7Bt-1%7D%2B%281-%5Cbeta1%29g_t%2C%5C%20v_t%3D%5Cbeta_2v%7Bt-1%7D%2B%281-%5Cbeta_2%29g_t%5E2&id=tOlwy)
特征选择:
- ID3: 信息增益计算方式:
%3D-%5Csum%7Bk%3D1%7D%5EK%20%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7D#card=math&code=H%28D%29%3D-%5Csum%7Bk%3D1%7D%5EK%20%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7D&id=SZ04o)
%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7BD%7DH(D_i)#card=math&code=H%28D%7CA%29%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7BD%7DH%28D_i%29&id=vzfXi)
%3DH(D)-H(D%7CA)#card=math&code=g%28D%2CA%29%3DH%28D%29-H%28D%7CA%29&id=CTUEI)
- C4.5: 信息增益比计算方式
%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7D#card=math&code=H_A%28D%29%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7D&id=NFaxD)
%3D%5Cfrac%7Bg(D%2CA)%7D%7BH_A(D)%7D#card=math&code=g_R%28D%2CA%29%3D%5Cfrac%7Bg%28D%2CA%29%7D%7BH_A%28D%29%7D&id=nsCew)
- CART: 基尼指数计算方式
%3D1-%5Csum%7Bk%3D1%7D%5EK(%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7D)%5E2%3D1-%5Csum%7Bk%3D1%7D%5EK%20pk%5E2#card=math&code=Gini%28D%29%3D1-%5Csum%7Bk%3D1%7D%5EK%28%5Cfrac%7B%7CCk%7C%7D%7B%7CD%7C%7D%29%5E2%3D1-%5Csum%7Bk%3D1%7D%5EK%20p_k%5E2&id=dqg74)
- 二分类:
%3D1-p_1%5E2-p_2%5E2%3D2p_1(1-p_1)#card=math&code=Gini%28D%29%3D1-p_1%5E2-p_2%5E2%3D2p_1%281-p_1%29&id=kR1G2)
%3D%5Csum%7Bi%3D1%7D%5E%7Bn%3D2%7D%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7DGini(D_i)#card=math&code=Gini%28D%7CA%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%3D2%7D%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7DGini%28D_i%29&id=WYpmo)
逻辑回归的本质——极大似然估计
逻辑回归处理二分类问题:
- 线性回归产生预测值
- 使用非线性的激活函数 sigmoid
使预测值的取值范围变为 [0, 1]
- 可以将其视为类 1 的后验概率估计
,即点 x 属于类别 1 的概率
- 可以将其视为类 1 的后验概率估计
逻辑回归的代价函数:
若模仿线性回归使用均方误差
,代入
和
,得到的是一个非凸函数,意味着代价函数有许多局部最小值,不利于求解
- i 代表第 i 个样本点
- 因此,
- 使用极大似然估计根据给定的训练集估计出参数 w:
- 为了简化运算,两边取对数:
- 上面要求的是是 l(w) 最小的 w,在 l(w) 前面加上负号,就得到了代价函数(损失函数):
- 就是交叉熵损失函数
利用梯度下降法求参数:
sigmoid 的导数:
- 梯度下降(利用负梯度信息):
- 因此梯度下降法更新权重时:
是第 j 个特征的权重,
是第 i 个样本的第 j 个特征
