正则化项公式集合 - 图1
XGBoost 正则化项公式集合 - 图2

知识蒸馏

  • hard outputs: 公式集合 - 图3
  • hard loss(交叉熵损失):公式集合 - 图4
  • 带温度 T 的 softmax公式集合 - 图5
  • 使用带温度 T 的 softmax 求得 soft outputs 公式集合 - 图6 和 soft targets 公式集合 - 图7
  • soft loss(KL 散度):公式集合 - 图8
激活函数名称 激活函数公式 导数
Sigmoid 公式集合 - 图9 公式集合 - 图10
Tanh
公式集合 - 图11
ReLU 公式集合 - 图12 公式集合 - 图13

可以用 KL 散度、交叉熵等来衡量两个分布的差异:

  • 分布 p 的熵:公式集合 - 图14
  • 分布 p 和 q 之间的KL 散度公式集合 - 图15
  • 分布 p 和 q 之间的交叉熵损失公式集合 - 图16
  • 交叉熵 = 熵 + KL散度,即 公式集合 - 图17
  • 深度学习中,p 为数据的真实概率分布,是已知的,最小化交叉熵损失来让模型输出的分布与真实分布近似,这时候求交叉熵和求 KL 散度是一致的

不同优化方法的参数更新:

  • SGD公式集合 - 图18
  • Momentum公式集合 - 图19
  • AdaGrad公式集合 - 图20
  • Adam公式集合 - 图21gt%2C%5C%20v_t%3D%5Cbeta_2v%7Bt-1%7D%2B(1-%5Cbeta2)g_t%5E2#card=math&code=m_t%3D%5Cbeta_1%20m%7Bt-1%7D%2B%281-%5Cbeta1%29g_t%2C%5C%20v_t%3D%5Cbeta_2v%7Bt-1%7D%2B%281-%5Cbeta_2%29g_t%5E2&id=tOlwy)
    • 公式集合 - 图22
    • 公式集合 - 图23

特征选择

  • ID3: 信息增益计算方式:
    • 公式集合 - 图24%3D-%5Csum%7Bk%3D1%7D%5EK%20%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7D#card=math&code=H%28D%29%3D-%5Csum%7Bk%3D1%7D%5EK%20%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7D&id=SZ04o)
    • 公式集合 - 图25%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7BD%7DH(D_i)#card=math&code=H%28D%7CA%29%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7BD%7DH%28D_i%29&id=vzfXi)
    • 公式集合 - 图26%3DH(D)-H(D%7CA)#card=math&code=g%28D%2CA%29%3DH%28D%29-H%28D%7CA%29&id=CTUEI)
  • C4.5: 信息增益比计算方式
    • 公式集合 - 图27%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7D#card=math&code=H_A%28D%29%3D-%5Csum%7Bi%3D1%7D%5En%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7Dlog_2%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7D&id=NFaxD)
    • 公式集合 - 图28%3D%5Cfrac%7Bg(D%2CA)%7D%7BH_A(D)%7D#card=math&code=g_R%28D%2CA%29%3D%5Cfrac%7Bg%28D%2CA%29%7D%7BH_A%28D%29%7D&id=nsCew)
  • CART: 基尼指数计算方式
    • 公式集合 - 图29%3D1-%5Csum%7Bk%3D1%7D%5EK(%5Cfrac%7B%7CC_k%7C%7D%7B%7CD%7C%7D)%5E2%3D1-%5Csum%7Bk%3D1%7D%5EK%20pk%5E2#card=math&code=Gini%28D%29%3D1-%5Csum%7Bk%3D1%7D%5EK%28%5Cfrac%7B%7CCk%7C%7D%7B%7CD%7C%7D%29%5E2%3D1-%5Csum%7Bk%3D1%7D%5EK%20p_k%5E2&id=dqg74)
    • 二分类:公式集合 - 图30%3D1-p_1%5E2-p_2%5E2%3D2p_1(1-p_1)#card=math&code=Gini%28D%29%3D1-p_1%5E2-p_2%5E2%3D2p_1%281-p_1%29&id=kR1G2)
    • 公式集合 - 图31%3D%5Csum%7Bi%3D1%7D%5E%7Bn%3D2%7D%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7DGini(D_i)#card=math&code=Gini%28D%7CA%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%3D2%7D%5Cfrac%7B%7CD_i%7C%7D%7B%7CD%7C%7DGini%28D_i%29&id=WYpmo)

逻辑回归的本质——极大似然估计

逻辑回归处理二分类问题:

  • 线性回归产生预测值 公式集合 - 图32
  • 使用非线性的激活函数 sigmoid 公式集合 - 图33 使预测值的取值范围变为 [0, 1]
    • 可以将其视为类 1 的后验概率估计 公式集合 - 图34,即点 x 属于类别 1 的概率
  • 公式集合 - 图35

逻辑回归的代价函数

若模仿线性回归使用均方误差 公式集合 - 图36,代入 公式集合 - 图37公式集合 - 图38,得到的是一个非凸函数,意味着代价函数有许多局部最小值,不利于求解

  • i 代表第 i 个样本点
  • 因此,公式集合 - 图39
  • 使用极大似然估计根据给定的训练集估计出参数 w:公式集合 - 图40
  • 为了简化运算,两边取对数:公式集合 - 图41
  • 上面要求的是是 l(w) 最小的 w,在 l(w) 前面加上负号,就得到了代价函数(损失函数)公式集合 - 图42
    • 就是交叉熵损失函数

利用梯度下降法求参数

sigmoid 的导数:公式集合 - 图43

  • 梯度下降(利用负梯度信息):公式集合 - 图44
  • 公式集合 - 图45
  • 因此梯度下降法更新权重时:公式集合 - 图46
    • 公式集合 - 图47 是第 j 个特征的权重,公式集合 - 图48 是第 i 个样本的第 j 个特征