习题6.1
确认Logistic分布属于指数分布族。
解答:
第1步:
首先给出指数分布族的定义:
对于随机变量 x,在给定参数 η下,其概率分别满足如下形式:
我们称之为指数分布族。
其中:
x:可以是标量或者向量,可以是离散值也可以是连续值
η:自然参数
g(η):归一化系数
h(x),u(x):x的某个函数
第2步:证明伯努利分布属于指数分布族
伯努利分布:φ是y=1的概率,即 P(Y=1)=φ
其中,
将y替换成x,可得对比可知,伯努利分布属于指数分布族,其中
第3步:
广义线性模型(GLM)必须满足三个假设:
,即假设预测变量y在给定x,以θ为参数的条件概率下,属于以η作为自然参数的指数分布族;
- 给定x,求解出以x为条件的T(y)的期望
,即算法输出为
- 满足
,即自然参数和输入特征向量x之间线性相关,关系由θ决定,仅当η是实数时才有意义,若η是一个向量,则
第4步:推导伯努利分布的GLM
已知伯努利分布属于指数分布族,对给定的 x, η,求解期望:
可得到Logistic回归算法,故Logistic分布属于指数分布族,得证。