二分类
线性判别分析(Linear Discriminant Analysis,简称LDA),同样是利用线性模型,LDA提供一种不同的思路。在LDA中,我们不再是拟合数据分布的曲线,而是将所有的数据点投影到一条直线上,使得同类点的投影尽可能近,不同类点的投影尽可能远。二分类LDA最早有Fisher提出,因此也称为Fisher判别分析。
具体来说,投影值 ,我们不再用
逼近样例的真实标记,而是希望同类样例的投影值尽可能相近,异类样例的投影值尽可能远离。
首先,同类样例的投影值尽可能相近意味着同类样例投影值的协方差应尽可能小;然后,异类样例的投影值尽可能远离意味着异类样例投影值的中心应尽可能大。合起来,就等价于最大化:
(%5Cmu_0%20-%20%5Cmu_1)%5ET%5Cmathbf%7Bw%7D%7D%7B%5Cmathbf%7Bw%7D%5ET(%5CSigma_0%2B%5CSigma_1)%5Cmathbf%7Bw%7D%7D#card=math&code=J%20%3D%20%5Cfrac%7B%5CVert%20%5Cmathbf%7Bw%7D%5ET%5Cmu_0%20-%20%5Cmathbf%7Bw%7D%5ET%5Cmu_1%20%5CVert%5E2_2%7D%7B%5Cmathbf%7Bw%7D%5ET%5CSigma_0%5Cmathbf%7Bw%7D%2B%5Cmathbf%7Bw%7D%5ET%5CSigma_1%5Cmathbf%7Bw%7D%7D%5C%5C%0A%3D%20%5Cfrac%7B%5Cmathbf%7Bw%7D%5ET%28%5Cmu_0%20-%20%5Cmu_1%29%28%5Cmu_0%20-%20%5Cmu_1%29%5ET%5Cmathbf%7Bw%7D%7D%7B%5Cmathbf%7Bw%7D%5ET%28%5CSigma_0%2B%5CSigma_1%29%5Cmathbf%7Bw%7D%7D&id=A65uJ)
其中,分子的 表示第i类样例的均值向量(即表示为向量形式后对各维求均值所得的向量)。分子表示的是两类样例的均值向量投影点(也即类中心)之差的
范数的平方,这个值越大越好。 分母中的
表示第i类样例的协方差矩阵。分母表示两类样例投影后的协方差之和,这个值越小越好。
定义类内散度矩阵(within-class scatter matrix):
(%5Cmathbf%7Bx%7D%20-%20%5Cmu0)%5ET%20%2B%20%5Csum%7Bx%20%5Cin%20X1%7D%20(%5Cmathbf%7Bx%7D%20-%20%5Cmu_1)(%5Cmathbf%7Bx%7D%20-%20%5Cmu_1)%5ET#card=math&code=S_w%20%3D%20%5Csigma_0%20%2B%20%5Csigma_1%5C%5C%0A%3D%20%5Csum%7Bx%20%5Cin%20X0%7D%20%28%5Cmathbf%7Bx%7D%20-%20%5Cmu_0%29%28%5Cmathbf%7Bx%7D%20-%20%5Cmu_0%29%5ET%20%2B%20%5Csum%7Bx%20%5Cin%20X_1%7D%20%28%5Cmathbf%7Bx%7D%20-%20%5Cmu_1%29%28%5Cmathbf%7Bx%7D%20-%20%5Cmu_1%29%5ET&id=OSur1)
定义类间散度矩阵(between-class scatter matrix):
(%5Cmu_0%20-%20%5Cmu_1)%5ET%0A#card=math&code=S_b%20%3D%20%28%5Cmu_0%20-%20%5Cmu_1%29%28%5Cmu_0%20-%20%5Cmu_1%29%5ET%0A&id=g8jcP)
这两个矩阵的规模都是 ,其中
是样例的维度(属性数目)。于是可以重写目标函数为:
也即 和
的广义瑞利熵(generalized Rayleigh quotient)。
可以注意到,分子和分母中 都是二次项,因此,最优解与 的大小无关,只与方向有关。
令分母为1,用拉格朗日乘子法把约束转换为方程,再稍加变换我们便可以得出:
%0A#card=math&code=%5Cmathbf%7Bw%7D%20%3D%20S_w%5E%7B-1%7D%28%5Cmu_0%20-%20%5Cmu_1%29%0A&id=mQa9e)
但一般不直接对矩阵 求逆,而是采用奇异值分解的方式。
多分类
多分类LDA与二分类不同在于,学习的是一个规模为 的投影矩阵
,而不是规模为
的投影向量
。这个投影矩阵把样本投影到
维空间(或者说
维超平面)上,由于
通常远小于样例原来的属性数目
,且投影过程用到了类别信息(标记值),所以LDA也常常被视为一种监督降维技术。(注:
最大可取为类别数-1)