第三章 广义线性模型 - 图1

  • 在前两章我们分别介绍了线性回归与逻辑回归

    • 线性回归问题符合正态分布:第三章 广义线性模型 - 图2

    • 逻辑回归问题符合伯努利分布:第三章 广义线性模型 - 图3

  • 实际上这些模型都是一个更为广泛的模型族的特例,这个模型族被称为广义线性模型(Generalized Linear Models)

指数族

  • 为了引出广义线性模型,我们首先需要介绍指数族分布

  • 如果一个分布可以被表示成如下形式,我们就称其属于指数分布族:

第三章 广义线性模型 - 图4

  • 这里,第三章 广义线性模型 - 图5 被称为分布的自然参数(或者称为典范参数

  • 第三章 广义线性模型 - 图6 被称为充分统计量,通常 第三章 广义线性模型 - 图7

  • 第三章 广义线性模型 - 图8 被称为对数分割函数

  • 第三章 广义线性模型 - 图9 本质上是一个归一化常数,确保概率 第三章 广义线性模型 - 图10 和为1

  • 当选定 第三章 广义线性模型 - 图11 时,我们就得到了一种以 第三章 广义线性模型 - 图12 为参数的分布

  • 下面我们来证明伯努利和正态分布属于指数分布族

伯努利分布的证明

  • 伯努利分布可以表示为:

第三章 广义线性模型 - 图13

  • 自然参数 第三章 广义线性模型 - 图14 (这里自然参数不是向量,所以其转置不变)

  • 从该式可以导出 第三章 广义线性模型 - 图15 ,这正是我们熟悉的 sigmoid 函数!

    • 之后我们推导逻辑回归是广义线性模型时会再提到这个
  • 现在,我们可以得到:

第三章 广义线性模型 - 图16

  1. - 这表明通过设定适当的 ![](https://cdn.nlark.com/yuque/__latex/15b314a06a8a3d972c1e844167a6fe36.svg#align=left&card=math&code=T%2Ca%2Cb&height=24&width=44) ,伯努利分布可以写成等式 (1) 的形式,即其属于指数族分布

正态分布的证明

  • 之前我们推导线性回归时得出了 第三章 广义线性模型 - 图17 的值对 第三章 广义线性模型 - 图18 的选择没有影响,所以为了简化推导,这里设定 第三章 广义线性模型 - 图19 ,于是我们有:

第三章 广义线性模型 - 图20

  • 因此,通过如下选择,我们可以证明高斯分布属于指数族分布

第三章 广义线性模型 - 图21

  • 其实,还有许多其他的分布属于指数族,比如多项式分布、泊松分布、伽马分布等

构建广义线性模型

  • 首先,广义线性模型的构建需要基于以下三条假设:
  1. 第三章 广义线性模型 - 图22 符合以 第三章 广义线性模型 - 图23 为参数的指数族分布

  2. 给定 第三章 广义线性模型 - 图24 ,我们的目标是预测 第三章 广义线性模型 - 图25 的理想值,而在大多数的案例中 第三章 广义线性模型 - 图26 ,这意味着我们的假设 第三章 广义线性模型 - 图27 应该满足第三章 广义线性模型 - 图28(可以从期望的定义上来进行理解,即反映随机变量平均取值的大小)

  3. 自然参数 第三章 广义线性模型 - 图29 和输入 第三章 广义线性模型 - 图30 满足线性关系 第三章 广义线性模型 - 图31 (如果 第三章 广义线性模型 - 图32 是向量,那么 第三章 广义线性模型 - 图33 )

  • 基于上面三条假设,我们就可以利用广义线性模型来优雅地解决问题

  • 下面,我们将用广义线性模型来推导线性回归和逻辑回归的假设函数,并引出 softmax 回归

线性回归

  • 线性回归的目标变量(在 GLM 术语集中也称为反应变量)满足高斯分布第三章 广义线性模型 - 图34(这里 第三章 广义线性模型 - 图35第三章 广义线性模型 - 图36 相关)

  • 根据之前推导的结果,我们有:

第三章 广义线性模型 - 图37

  • 第一个等式来源于假设2

  • 第二个等式是高斯分布的性质

  • 第三个等式是之前推导过高斯分布属于指数族分布的条件

  • 最后一个等式则来源于假设3

逻辑回归

  • 逻辑回归的反应变量满足伯努利分布第三章 广义线性模型 - 图38,而之前我们在证明伯努利分布属于指数族分布时已经推导出了 第三章 广义线性模型 - 图39,因此,与线性回归类似,我们有:

第三章 广义线性模型 - 图40

  • 上式证明了为什么逻辑回归的假设函数是 sigmod 函数,当反应变量满足伯努利分布时,这是广义线性模型的定义导出的结果
  • 此外,我们将表示分布均值(期望)与自然参数关系的函数称为正则响应函数(canonical response function), 将其反函数称为正则关联函数(canonical link function)

    • 因此,高斯分布的正则响应函数即为其本身,伯努利分布的正则响应函数即为逻辑回归的假设函数

softmax 回归

  • 如果对于分类问题,y可以取k个值(k>2),那么这就是一个多元分类问题

    • 此时反应变量的条件概率分布模型为多项分布
  • 下面让我们推导出多项分布数据的广义线性模型,在这之前,需要首先将多项式分布表示为指数族分布

  • 假设多项式分布有 k 个输出,一般我们应该定义 k 个参数 第三章 广义线性模型 - 图41 来表示每个输出的概率,但这其实存在冗余,因为第 k 个输出的概率可以用其他 k-1 个输出的概率来表示(概率之和必定为1)

  • 因此,我们只定义k-1个参数 第三章 广义线性模型 - 图42 ,其中 第三章 广义线性模型 - 图43 ,则 第三章 广义线性模型 - 图44 ,注意其并不是一个参数,而是由 第三章 广义线性模型 - 图45 确定的。

  • 为了将多项分布表示为指数族分布,我们首先定义 第三章 广义线性模型 - 图46 如下:

第三章 广义线性模型 - 图47

  • 与之前不同, 第三章 广义线性模型 - 图48第三章 广义线性模型 - 图49 并不相等,第三章 广义线性模型 - 图50 是一个 k-1 维的向量而非一个实数

  • 我们将用 第三章 广义线性模型 - 图51 来表示向量 第三章 广义线性模型 - 图52 的第 i 个元素

  • 下面我们将再介绍一个有用的操作符:第三章 广义线性模型 - 图53 ,其运算法则为:

第三章 广义线性模型 - 图54

  • 例如:
  • 因此,我们可以得到如下等式:

第三章 广义线性模型 - 图55

  • 即只有当 第三章 广义线性模型 - 图56 时,第 i 个元素才为 1,其他都为 0

  • 进一步可以得到:

第三章 广义线性模型 - 图57

  - 因为求期望时,只有当 ![](https://cdn.nlark.com/yuque/__latex/94e1981457cb80e905ad05030cfec73e.svg#align=left&card=math&code=y%3Di&height=24&width=37) 时,乘积不为 0
  • 基于上述结论,我们可以将多项分布表示为指数族分布:

第三章 广义线性模型 - 图58

  • 其中:

第三章 广义线性模型 - 图59

  • 上述推导表明了多项分布属于指数族分布,并得到了关联函数如下(前面已经证明了期望值即为 第三章 广义线性模型 - 图60 ):

第三章 广义线性模型 - 图61

  • 类似地,我们定义 第三章 广义线性模型 - 图62 。下面我们将推导出响应函数

第三章 广义线性模型 - 图63

  • 这表明 第三章 广义线性模型 - 图64 ,将其代回(2)式,即可得到响应函数为:
    第三章 广义线性模型 - 图65
  - 这个将 ![](https://cdn.nlark.com/yuque/__latex/ffe9f913124f345732e9f00fa258552e.svg#align=left&card=math&code=%5Ceta&height=24&width=9) 映射到 ![](https://cdn.nlark.com/yuque/__latex/1ed346930917426bc46d41e22cc525ec.svg#align=left&card=math&code=%5Cphi&height=24&width=10) 的函数又被称为 **softmax**(柔性最大值)函数
  • 根据之前的假设 3 ,我们有 第三章 广义线性模型 - 图66 ,其中 第三章 广义线性模型 - 图67,为了方便,我们定义 第三章 广义线性模型 - 图68 ,这样 第三章 广义线性模型 - 图69 ,因此,我们的模型给出 y 的条件分布如下:

第三章 广义线性模型 - 图70

  • 这个模型可以应用于多元分类问题 第三章 广义线性模型 - 图71 ,被称为 softmax 回归,它是逻辑回归的推广
  • 综上,我们的假设函数为:

第三章 广义线性模型 - 图72

  • 该假设函数给出了 y 取每个可能的值的条件概率(第三章 广义线性模型 - 图73),其中 第三章 广义线性模型 - 图74第三章 广义线性模型 - 图75 得到
  • 最后,我们来讨论 softmax 回归的参数拟合。与之前类似,如果我们有一个训练集 第三章 广义线性模型 - 图76 ,希望学习出这个模型的参数 第三章 广义线性模型 - 图77 ,我们首先会给出其对数似然函数:

第三章 广义线性模型 - 图78

  • 下面我们就可以通过最大似然分析求出参数 第三章 广义线性模型 - 图79 ,使用梯度上升或牛顿方法