第二章 分类与逻辑回归 - 图1

  • 之前我们讨论的是回归问题,即输出是连续值,现在我们来讨论输出是离散值的分类问题

  • 本节我们将专注于二元分类问题,即输出 y 只能取 0 和 1 两个值

逻辑回归

  • 如果将线性回归模型直接应用于分类问题,会产生取值不在 0 和 1 之间的问题,所以我们引入逻辑回归模型

第二章 分类与逻辑回归 - 图2

  • 其中:

第二章 分类与逻辑回归 - 图3

  1. - ![](https://cdn.nlark.com/__latex/17aa20a885a267996bffe03ac0f92a2e.svg#align=left&card=math&code=g%28z%29%20&height=24&width=29) 被称为**逻辑函数**或 **S 型函数**,其图像如下:

第二章 分类与逻辑回归 - 图4

  - 可以看到,当 ![](https://cdn.nlark.com/__latex/228e012993246e03cf01bc1439f103ef.svg#align=left&card=math&code=z%20%5Cto%20%2B%5Cinfty&height=24&width=65) 时 ![](https://cdn.nlark.com/__latex/17aa20a885a267996bffe03ac0f92a2e.svg#align=left&card=math&code=g%28z%29&height=24&width=29) 趋向于 1 , 当 ![](https://cdn.nlark.com/__latex/dac8b97fc3a3aa6d2b0b0f0c4e5e81b4.svg#align=left&card=math&code=z%20%5Cto%20-%5Cinfty&height=24&width=65) 时 ![](https://cdn.nlark.com/__latex/17aa20a885a267996bffe03ac0f92a2e.svg#align=left&card=math&code=g%28z%29&height=24&width=29) 趋向于 0 ,即 ![](https://cdn.nlark.com/__latex/17aa20a885a267996bffe03ac0f92a2e.svg#align=left&card=math&code=g%28z%29&height=24&width=29) 的值域为 (0,1),至于为什么要选择这个函数,在之后会作出解释
  • 首先给出一个关于 S 型函数求导的有用性质:

第二章 分类与逻辑回归 - 图5

  • 确定了模型之后,我们需要找到合适的 第二章 分类与逻辑回归 - 图6 的值

    • 这里采用之前使用的最大似然法来选择参数(假设函数可以直接看作概率分布)
  • 首先,二元分类符合伯努利分布,我们假设:

第二章 分类与逻辑回归 - 图7

  • 将上面的公式合二为一,得到:

第二章 分类与逻辑回归 - 图8

  • 假定 m 个样本之间相互独立,我们可以得到 第二章 分类与逻辑回归 - 图9 的似然函数如下:

第二章 分类与逻辑回归 - 图10

  • 与之前类似,为了计算方便,我们使用对数似然函数来进行最大化分析:

第二章 分类与逻辑回归 - 图11

  • 下面要做的是使得 第二章 分类与逻辑回归 - 图12 最大的 第二章 分类与逻辑回归 - 图13 值,由于这里是找最大值而非最小值,所以使用梯度上升(gradient ascent)

    • 参数的更新规则是 第二章 分类与逻辑回归 - 图14

    • 对于随机梯度上升(每次只考虑一个样本),求导过程如下:

第二章 分类与逻辑回归 - 图15

  - 在计算过程中使用到了 S 型函数的求导性质
  • 综上所述,我们得到随机梯度上升的更新规则是:

第二章 分类与逻辑回归 - 图16

  • 这个公式和线性回归中梯度下降的公式表面上看是一样的,但实际上两者的 第二章 分类与逻辑回归 - 图17 有所不同

  • 关于更加深层次的讨论,请参看之后的 GLM 模型章节

牛顿方法

  • 下面介绍另一种求解 第二章 分类与逻辑回归 - 图18 的最大值的算法,称为牛顿方法

  • 我们通过如下的几张图来理解牛顿方法:

第二章 分类与逻辑回归 - 图19

  • 对于梯度下降,每次只是在梯度方向上下降一小步(具体速度取决于学习速率)

  • 而牛顿方法是一直下降到导数(切线)和 第二章 分类与逻辑回归 - 图20 轴交界的那个 第二章 分类与逻辑回归 - 图21 。因此牛顿方法的更新规则是:

第二章 分类与逻辑回归 - 图22

  • 下面我们将牛顿方法应用于逻辑回归,我们需要找到 第二章 分类与逻辑回归 - 图23 的最大值,即 第二章 分类与逻辑回归 - 图24 ,因此令 第二章 分类与逻辑回归 - 图25 ,我们可以得到逻辑回归的牛顿方法更新公式:

第二章 分类与逻辑回归 - 图26

  • 而对于 第二章 分类与逻辑回归 - 图27 为向量的情况,牛顿方法的多维形式如下(又被称为牛顿-拉夫逊方法):

第二章 分类与逻辑回归 - 图28

  • 其中 第二章 分类与逻辑回归 - 图29第二章 分类与逻辑回归 - 图30 对于每个 第二章 分类与逻辑回归 - 图31 的偏导数构成的向量

  • 第二章 分类与逻辑回归 - 图32 是一个 第二章 分类与逻辑回归 - 图33 的矩阵(包括截距项),称为海森矩阵,其中的每一项定义为:

第二章 分类与逻辑回归 - 图34

  • 和(批量)梯度下降相比,牛顿方法会带来更快的收敛速度和更少的迭代次数

    • 虽然每次迭代的计算量较大,但对于参数数量不是特别大的情况,总的来说它还是更快的
  • 将牛顿方法用于求解逻辑回归的对数似然函数最大值,也被称为费雪评分

感知器学习算法

  • 下面介绍另一种二分类方法:感知器学习算法

  • 感知器学习算法的假设函数为:

第二章 分类与逻辑回归 - 图35

  • 可以看到 g(z) 是逻辑回归的s型函数的简化形式

  • 逻辑函数的输出是在连续的 [0,1] 区间上,而感知器直接非0则1

  • 感知器学习算法的参数更新规则如下:

第二章 分类与逻辑回归 - 图36

  • 19世纪60年代,感知器被看作是大脑工作中独立神经元的粗糙模型

  • 虽然直观看上去,感知器和之前所说的逻辑回归或线性回归很像,但是其实是非常不一样的算法

    • 因为对于感知器学习算法,很难赋予一种有意义的概率解释,或使用最大似然估计算法来进行推导