习题6.1

  确认Logistic分布属于指数分布族。


解答:

第1步:

首先给出指数分布族的定义:
对于随机变量 x,在给定参数 η下,其概率分别满足如下形式:
习题6.1 - 图1
我们称之为指数分布族
其中:
x:可以是标量或者向量,可以是离散值也可以是连续值
η:自然参数
g(η):归一化系数
h(x),u(x):x的某个函数


第2步:证明伯努利分布属于指数分布族

伯努利分布:φ是y=1的概率,即 P(Y=1)=φ

习题6.1 - 图2
其中,习题6.1 - 图3
将y替换成x,可得习题6.1 - 图4对比可知,伯努利分布属于指数分布族,其中 习题6.1 - 图5


第3步:

广义线性模型(GLM)必须满足三个假设:

  1. 习题6.1 - 图6,即假设预测变量y在给定x,以θ为参数的条件概率下,属于以η作为自然参数的指数分布族;
  2. 给定x,求解出以x为条件的T(y)的期望习题6.1 - 图7,即算法输出为习题6.1 - 图8
  3. 满足习题6.1 - 图9,即自然参数和输入特征向量x之间线性相关,关系由θ决定,仅当η是实数时才有意义,若η是一个向量,则习题6.1 - 图10

第4步:推导伯努利分布的GLM

已知伯努利分布属于指数分布族,对给定的 x, η,求解期望:
习题6.1 - 图11
可得到Logistic回归算法,故Logistic分布属于指数分布族,得证。