RC_Common - 机器学习常见算法个人总结（面试用） - 《R_Coding》

机器学习常见算法个人总结（面试用）
Tuesday, May 24, 2016
11:07 PM

| | —- |

| Tags: #微博 |

IT程序猿
05/24/2016
【机器学习常见算法个人总结（面试用）】本文总结了机器学习常见算法，需要的小伙伴赶紧收藏吧~http://t.cn/RqprcMj（来自： kubicode’blog ）
![计算机生成了可选文字: 本文来自： kubicode’blo 版权归届原作者机器学习常见算法个人总结（面试用） @仃程厚猿 & & 酷勤网制作对悱版看不下去了，将本文的公式使厍《《 “ 一市与了 · 0 n 2 016 一 0 4 一 15 朴素贝叶斯《参考 [ 1 ] 事件《 A 和《 13 同时发生的概率为《在发生的情况下发生岿或者在 13 发生的情况下发生 A P(AnB)=P(A) 囗 P(BIA)=P(B) 囗 P(AIB) 所以有 P(AIB)=P(BIA) 囗 P(A)P(B) 对于给出的待分类项，求解在此项出觋的条件下各个目标类别出觋的概率，哪个最大，就认为此待分类项届于哪个类别工作原理假设现在有样本 x = （ al ， a2 ， a3 。 an ）这个待分类项（并认为 x 里面的特征独立）冉假设现在有分类目标 Y = { yl ， Y2 ， y3 ， y4 一 yn } 那么 max(P(y11x),P(y21x),P(y31x)..P(ynlx)) 就是最终的分类类别 fiP(yilx)=p(xlyi) 囗 P(yi)P(x) 因为 x 对于每个分类目标来说都一样，所以就是求 max(P(xlyi) 囗 p(yi)) P(xlyi) 囗 p(yi)=p(yi) 囗 Ili(P(ailyi)) 而具体的 p （ a 刂 yi ）和 p （ yi ）都是能从训练样本中统计出 p （ a 刂 yi ）表亍该类别下该特征出现的概率 p （ yi ）表示全部类别中这个这个类别出现的概率好的，就是这么工作的 ^ 一 ^ 工作流程准备阶段确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本。训练阶段计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条僻概率估计应厍阶段使厍分类器进行分类，输入是分类器和待分类样本，输出是样本属于的分类类别属性特征特征为离散值时直接统计即可（表示统计概率）特征为连续值的时候假定特征符合高斯分布 g 区 n, u) 那么 p(aklyi)=g(xk,ni,ui) La a （ e 校准（拉普拉斯校验）当某个类别下某个特征划分没有出觋时，会有 P （ a 阴二 0 ，就是导致分类器质量降低，所以此时引入 Lap ] a （ e 校验就让对没类别下所有划分的计数加 1 。遇到特征之间不独立问题参考改进的贝叶斯网络使 DAG 《来进行概率图的描述优缺点朴素贝叶斯的优点对小规椏的数据表现很好，适合多分类任务，适合 t 雪量式训练。对输入数据的表达形式很敏感（离散、连续，值极大极小之类的）。逻辑回归和线性回归《参考 [ 2 ， 3 ， 4 ] 回归是一个线性的二分类馍型，芏要是计算在某个样本特征下事件发生的概率《，比如根据户的测跪购买情兄作为特征来计笪它是否会购买这个商品，抑或是它是否会点击这个商品。然后 “ 的最终值是根据一《性和函数再通过一个函数来求得这个线性和函数 s i Ill 0 d 权重与特征值的累加以及加上偏置求出来的，所以在训练 [R 时也就是在训练线性和函数的各个权重值 hw(x)=11+e—(wTx+b) 关于这个权重值 w 《一般使最大似然法来估计，假设觋在有样本仅，力 }, 其中刈表示样本的特征， y ] 三 { 0 ， 1 } 表亍样本的分类真实值， yi 二 1 的概率是 pi, 则 yi 二 0 的概率是 1 一 pi ，那么观测概率为 p （ YD 二 pyll 囗（ 1 一 p01 一尹则最大似然函数为 Il(hw(xl)YlO(1-hw(xi))1—yi) 对这个似然函数取对数之后就会得到的表达式 L(w)=)i(YlOloghw(x1)—(1—Yl) 囗 log(l—hw(xi)))=ii(yi 囗 (w 估计这个 L(w ）的极大值就可以得到 w 的估计值《实际操作中一般会加个负号改为求最小所以求解问题就变成了这个最大似然函数的最优化问题，这里通常会采样随机悌度下降法和拟牛顿迭代法来进行优化梯度下降法的损实函数为豇 w 片一 INN 》二 1 （力囗 g （ hw （ (i)) + (I—yi) 囗 log(l—hw(xi))) 这样就变成了求 mi n(J(w)) 其更新 w 的过程为 w:=w—a 囗 •J(w)w.=w—a 囗 IN 囗 Nii=l(hw(xi)—yi) 囗 xi) 其中 a 为步长，直到豇 w ）不能再小时停止悌度下降法的最大问题就是会陷入局部最优，并且每次在对当前样本计笪 “ “ 的时佞都需要去遍历全部样本才能得到 cost 值，这样计笪速度会慢很多（虽然在计笪的时候可以转为矩阵乘法去更新整个 w 值所以觋在好多框架（ Iliahout 《）中一般使随机悌度下降法，它在计笪 cost 的时佞口计笪当前的代价，最终是在全部样本迭代一遍之求和得出，还有他在更新 C 0 S [ 当前的参数 w 的时佞并不是依次遍历样本，而是从所有的样本中随机选降一条进行计笪，它方法收敛速度快（一般是使最大迭代次数），并且还可以僻免局部最优，并且还很容易并行（使参数服务器的方式进行并行） w:=w—a 囗 (hw(xJ)—YJ) 囗 xl);je1Nandrandomly 这里 GD 《可以改进的地方就是使动态的步长 a 二 0 、 0 4 囗（ 1 、 0 + n + 0 + r 其他优化方法 · 拟牛顿法（记得是需要使 Hessia n 分解） · BFGS L-BFGS 和 cholesky 《优缶夫点：无需选择学习率 a ，更快，但是更复杂关于 LR 的过拟合问题：如果我们有很多的特性，在训练集上拟台得很好，但是在预测集上却达不到这种效果减少 feature 个数（人工定义多少个 feature 、算法选取这些 feature ）正则化（为了方便求解 0@ 使厍较多）添加正则化之后的损失函数为 :J(w)=-1N>Ni=1(yiülog(hw(xi))+ (I-yi)Dlog(1-hw(xi)))+Xllw112 同时 w 的更新变为 w:=w-a 囗 (hw(xj)-yj) 囗 (i)-2a 囗 wj 注意：这里的 wo 不受正则化影响关于 LR 的多分类： softmax 假设离散型随机变量 Y 的取值集合是 { 1 ， 2 一， k}, 则多分类的 LR 为 P(Y=alx)=exp(wa 囗幻0k二1（wi 囗 x));l b 构造叶子节点，分别以上面两个区域中 a2 的中位数作为切分点，冉次将他们两两划分，作为深度 1 的叶子节点，（如果 a2 = 中位数，则 a2 的实例落在切分面）不断市复 2 的操作，深度为 j 的叶子节点划分的时候，索取的 ai 的 i 司％ k 十 1 ，直到两个子区域没有实例时停止 KD 树的搜索首先从根节点开始递归往下找到包含 x 的叶子节点每一层都是找对应的 xi 将这个叶子节点认为是当前的 “ 近似最近点 “ 递归向上回退，如果以 x 圆心，以 “ 近似最近点 “ 为半径的球与根节点的另一半子区域边界柜交，则说明另一半子区域中存在与 x 更近的点，则进入另一个子区域中奋找该点并且更新 “ 近似最近点市复 3 的步骤，直到另一子区域与球体不柜交或者退回根节点最后更新的 “ 近似最近点 “ 与 x 真正的最近点 KD 树进行找通过 KD 树的搜索找到与搜索目标最近的点，这样 KNN 的搜索就可以被限制在空间的局部区域上了，可以大大堆加戏率。 KD 树搜索的复杂度当实例随机分布的时佞，搜索的复杂度为 g （ N ）， N 为实例的个数， KD 树更加适于实例数量远大于空间维度的 KNN 搜索，如果实例的空间维度与实例个数差不多时，它的效率基于等于线性扫描后来自己有实现过 KD 树，可以看 KNN 算法中 KD 树的应厍 SVM, SMO 对于样本点（ xi ， yi ）以及 svm 的超平面． wTxi+b=O · 函数间隔： yi(wTxi+b) · 几何间隔：力（ wT 刘 + b 渊 w 伟其中 llwll 为 w 的 L2 范数几何间隔不会因为参数比例的改变而改变 svm 的基本想法就是求解能正确划分训练样本并且其几何间隔最大化的詔平面。线性 SVM 问题先来看 svm 的问题 argmaxw,byst.yi(wTxi+b)llwll>-y 那么假设、 WII 则将问题转为 argmaxw,WYllwllst.yi(wTxi+b)>1 由于、的成比例增减不会影响实际间距，所以这里的取、二 1 ，又因为 max 叫 № ] l) 二 mn （ 12 啩 w 扫 2 ）所以最终的问题就变为了 argmnw,b12 囗 llw112st 、 yi(wTxi+b)>1 这样就变成了一个凸的二次划化，可以将其转换为拉格朗日函数，然后使对偶笪法来求解对偶求解引进拉格朗日乘子 a 圳 al ， a2 一 an}, 定义拉格朗日函数 L(w,b,a)=12 囗 ]№H2一〗i二1N（山囗 yi(wTxi+b))+)(ai) 根据对偶性质原始问题就是求对偶问题的极大极小 maxaminw,bL(w,b,a) 先求 L 对 w ， b 的极小，再求对 a 的极大。求 minw,bL(w,b,a) ，也就是相当于对 w ， b 求偏导并且另其等 vwL(w,b,a)=w—ii=1N(aiyixi)=OvbL(w,b,a)=ii=1N(aiyi 代入后可得 minw,bL(w,b,a)=—12 囗 Nii=1Nb=1(aiajyiYJ(xi 囗 xj))+N) 求 minw,bL(w,b,a) 对 a 的极大，即是对偶问题 maxa 一 12 囗 N 〗 i 二 IN 习二 1 （ ajy ] 刃（刈囗月 + N 〗 i 二 laist 、〗 i ， N 将求最大转为求最小，得到等价的式子为 mina12 囗 N 〗 IN 习二 1 （ a 丨 y ] 刃（刈囗刈月一 N 〗 i 二 laist 、〗 i 二 N 假如求解出来的 a 为 a 囗 a 囗 1 ， a 囗 2 。、 a 囗 n ）则得到最优的 w ， b 分别为 w 囗二 N 〗产 1 （ a 山 y 以 Db 囗二力一 N 〗 i 二 1 （ a 囗 iyi （ xi 囗 xj 月所以，最终的决策分类面为 f(x)=sign(N)i=1(a 囗 IY1(x 囗 (i)+b 囗）也就是说，分类决策函数 R 依赖于输入 x 与训练样本的输入的内积 ps ：上面介绍的是 SVM 的硬间距最大化，还有一种是软间距最大化，引厍了松弛变量（，则次 svm 问题变为 argminw,b12 囗 llw112+CN)i=1(ist.yi(wTxi+b)21- N 其余解决是与硬间距的一致一还有：与分离詔平面最近的样本点称为支扌寺向量损失函數损实函数为（优化目标） Nii=1[1—yi(wTxi+b)J++Ällw112 其中 [ 1 一 yi （ wTxi + b 月 + 称为折页损失函数，因为： [ 1 一力（ wT 刘 + b 月 + 二 {Oif1—yi(wTxi+b)S01—yi(wTxi+b)otherwise 为什么要引入对偶算法对偶问题往往更加容易求解（结合拉格朗日和 kkt 条可以很自然的引厍核函数（拉格朗日表达式里面有内积，而核函数也是过内积进行映射的）核函數将输入特征 x （线性不可分）映射到高维特征 R 空间，可以在 R 空间上让 SVM 进行线性可以变，这就是核函数的作 · 多项式核函数． K （ x ， z 片（ x 囗 z + 1 ） p · 高斯 El%lä:K(x,z)=exp(-(x-z)202) · 字符串核函数：貌似于字符串处理等 SVMØtN 点使厍核函数可以向高维空间进行映射使厍核函数可以解决菲线性的分类分类思想很简单，就是将样本与决策面的间隔最大化分类效果较好对大规椏数据训练比较困难无法直接支扌寺多分类，但是可以使厍间接的方法来做 SMO SMO 是于快速求解 SVM 的它选降凸二次划的叻个变量，其他的变量保恃不变，然后根据这叻个变量构建一个二次划问题，这个二次划关于这叻个变量解会更加的接近原始二次划的解，通过这样的子问题划分可以大大堆加整个笪法的计笪速度，关于这呐个变量其中一个是严市违反 KKT 条僻的一个变量另一个变量是根据自由约束确定，好像是求剩余变量的最大化来确定的。 SVM 多分类问题直接法直接在目标函数上进行修改，将多个分类面的参数求解台并到一个最优化问题中，涌过求解该优化就可以实现多分类（计算复杂度很高实现起来较为困难）间接法一对多其中某个类为一类，其余 n 一 1 个类为另一个类，比如 A,B,C,D!! 个类，第一次 A 为一个类， {B,C,D} 为一个类训练一个分类器，第二次 8 为一个类， { A ， c ， D } 为另一个类，按这方式共需要训练 4 个分类，最后在测试的时候将测试样本经过这 4 个分类器 fl （ x),f2 （ x),f3 （ x ）和 f4 （ x), 取其最大值为分类（这种方式由于是 1 对 M 分类，会存在偏置，很不实厍）一对一 (libsvm 实现的方式）任意两个类都训练一个分类，那么 n 个类就需要 n （ n 一 1 ）／ 2 个 svm 分类。还是以 A,B,C,D 为例，那么需 { A ， D}, { 8 ， C}, { 8 ， D}, { C ， D } 为目标共 6 个分类然后在预测的将测试样本诵过这 6 个分类器之后进行投票选择最终结果。（这种方法虽好，但是需要 n （ n 一 1 ）／ 2 个分类器代价太大，不过有好像使厍循环图来进行改进）决策树决策树是一颗依托决策而建立起来的树。 I D 3 首先是针对当前的集合，计算每个特征的信息增益然后选择信息增益最大的特征作为当前节点的决策决策特征根据特征不同的类别划分到不同的子节点（比如年龄特征有青年，中年，老年，则划分到 3 颗子树）然后继续对子节点进行递归，直到所有特征都被划分 S(C,ai)=—ii(piOlog(pi)) 一个届性中某个类别的 Epi 二 P(y 刂 (i), pi 表示 ai 情况下发生 yi 的概率，也即是统计概率。 S(C,A)=ii(P(A=ai) 囗 S(ai)) 整个届性的箔，为各个类别的比例与各箔的加权求和。 Gam(C,A)= S （ 0 —S (C,A) 增益表亍分类目标的箔减去当前届性的箔，堆益越大，分类能力越强（这里前者叫做验箔，表亍数据集分类 c 的不确定性，后者就是条件箔，表亍在给定 A 的条件下对数据集分类 c 的不确定性，呐者相减叫做互信息，决策树的堆益等价于互信比如说当前届性是是否有房产，分类是是否能偿还债务现在 · 有房产为 7 个， 4 个能偿还愦务， 3 个无法偿还愦务 · 然后无房产为 3 个，其中 1 个能偿还债务， 2 个无法偿还债务有房子的箔： S(have h 。 use 片一（ 47 囗 g47 + 37 囗 g37 ）无房子的箔： S()o house 片一（ 13 囗 g13 + 23 囗 g2 引分类的箔： S （ classifier ）二一（ 510 囗 g510 + 510 囗 g510 ）最终的增益 =S(classifier)—(710 囗 S(have house)+310 囗 S()o house) 最大越好关于损实函数设树的叶子节点个数为 0 t 为其中一个叶子节点，该叶子节点有 Nt 个样本，其中 k 类的样本有 Ntk 个， H(t) 为叶子节点上的箔，则陨实函数定义为 Ct(T 片 Nt 囗 H （ t 月 + 入仃丨其中 H(t)=i(NtkNtOlog(NtkNt)) 代入可以得到 Ct(T)=)()(Ntk 囗 log(Ntk/Nt)))+ÄlTl 入田为正则化项，入是于调节比率决策树的生成 R 者虑了信息增益 C 4 ． 5 它是 [ D3 的一个改进笪法，使信息增益率来进行届性的选 split[nformation(S,A)=—ii(lSillSl 囗 log2(lSlllSl))GainRatio(S,A)=Gain(S,A)split[nformati0 优缺点准确率高但是子构造树的过程中需要进行多次的扫描和排序，所以它的运笪效率较低 C a r t 分类回归树 (Classification And Regression Tree)Z— 《决策二叉树，在通过递旧的方式建立，每个节点在分裂的时佞都是希望通过最好的方式将余的样本划分成呐类，这里的分类指五分类树．基尼指数最小化 (giniindex) 回归树：平方误差最小化分类树首先是根据当前特征计算他们的基尼 t 雪益选择基尼增益最小的特征作为划分特征从该特征中查找基尼指数最小的分类类别作为最优划分点将当前样本划分成两类，一类是划分特征的类别等于最优划分点，另一类就是不等于针对这两类递归进行上述的划分工作，直达所有叶子指向同一样本目标或者叶子个数小于一定的或值 g 丽来度量分布不均匀性（或者说不纯），总体的类别越杂乱， G [ N [ 指数就越大（跟箔的概念很相似）引 m （引片 1 一习（ p20 pi 当前数据集中第 i 类样本的比例 gim 越小，表亍样本分布越均匀（ 0 的时候就表示只有一类了），越大越不均匀基尼 tægmi-gain=ii(NiN 囗 gini(ai)) 表亍当前届性的一个混乱 Ni N 表亍当前类别占所有类别的概率最终 Cart 选 }_Gi niGai n 最小的特征作为划分特征以 [ D3 中的贷款的那棵树为样例基尼俨数有房产． g ] m （ have house 片 1 一（（ 37 ） 2 + （ 47 ） 2 ）基尼指数无房产引 m （ no 一 house 片 1 一（（ 1 引 2 + （ 2 引 2 ）基尼增益为 :g1m_gain=710 囗 gini(have house)+310 囗 gini()o hou 回归树《回归树是以平方误差最小化的准则划分为两块区过历特征计算最优的划分点 s 使其最小化的平方误差是 min{min(R1.sigma((yi-c1)2))+min(R2.sigma((yi- 计算根据 s 划分到左侧和右侧子树的目标值与预测值之差的干方和最小，这里的预测值是两个子树上输入 xi 样本对应 yi 的均值找到最小的划分特征 j 以及其最优的划分点 s ，根据特征 j 以及划分点 s 将现有的样本划分为两个区域，一个是在特征 j 上小于等于 s ，另一个在在特征 j 上大于 s RI(j)={xlx(j)ss}R2(j)={xlx(j)>s} 进入两个子区域按上述方法继续划分，直到到达停止条僻《这里面的最小化我记得可以使厍最小二乘法来求关于剪忮用独立的验证数据集对训练集生长的树进行剪忮（事后剪忮）。停止条件直到每个叶子节点都只有一种类型的记录时停止，（这种方式很容易过拟合）另一种时当叶子节点的记录树小于一定的或值或者节点的信息增益小于一定的或值时停止关于特征与目标值特征离散目标值离散：可以使厍 [ D3 ， cart 特征连续目标值离散：将连续的特征离散化可以使厍 [ D 3 ， c a r t 特征离散目标值连续决策树的分类与回归 · 分类树输出叶子节点中所届类别最多的那一类 · 回刂彐树输出叶子节点中各个样本值的平均值理想的决策树叶子节点数尽量少叶子节点的深度尽量小（太深可能会过拟合）解决决策树的过拟合剪枝前置剪枝：在分裂节点的时候设计比较苛刻的条僻，如不满足则直接停止分裂（这样干决策树无法到最优，也无法得到比较好的效果）后置剪枝：在树建立完之后，厍单个节点代替子树，节点的分类采厍子树中主要的分类（这种方法比较浪前面的建立过程）交叉验证随机森林优缺点计算量简单，可解释性强，比较适合处理有失属性值的样本，能够处理不相关的特征单颗决策树分类能力弱，并且对连续值变量难以处容易过拟合（后续出现了而机森林，减小了过拟合现随机森林 RF 随机森林是有很多随机得决策树构成，它们之间没有关联。得到 RF 以后，在顸测时分别对每一个决策树进行判断，最后使 Bagging 的思想进行结果的输出（也就是投票的思想）学习过程现在有 N 个训练样本，每个样本的特征为 M 个，需要建 K 颗树从 N 个训练样本中有放回的取 N 个样本作为一组训练集（其余耒取到的样本作为预测分类，评估其误差）从 M 个特征中取 m 个特征左右子集特征（ m < < M ）对采样的数据使厍完全分裂的方式来建立决策树，这样的决策树每个节点要么无法分裂，要么所有的样本都指向同一个分类市复 2 的过程 K 次，即可建立森林预测过程将预测样本输入到 K 颗树分别进行预测直接使厍投票的方式选择分类频次如果是分类问题最高的类别如果是回归问题，使厍分类之后的均值作为结果叁數问题这里的一般取 m=sqrt(M) 关于树的个数 K ，一般都需要成白上干，但是也有具体的样本有关（比如特征数量）树的最大深度，（太深可能可能导致过拟合？？）节点上的最小样本数、最小信息 t 雪益泛化误差估计使 Eoob （ out-of-bag ）进行泛化误差的估计，将各个树的耒采样样本作为顸测样本（大约有 36 、 8 ‰ ）使已建立好的森林对各个预测样本进行顸测，顸测完之后最后统计误分得个数占总顸测样本的比率作为 RF 的 00b 误分率。学习算法 [ D3 算法：处理离散值的量 C45 算法：处理连续值的量 cartä ：离散和连续两者都合适？关于 CART ca rt 可以通过特征的选择迭代建立一颗分类树，使得每次的分类平面能最好的将余数据分为呐类 gini=1-i(p2i) ，表亍每个类别出觋的概率和与 1 的差值分类问题： argmax(Glni—GimLeft—GinlRlght) 回旧问题： argmax(Var—VarLeft—VarRlght) 查找最佳特征 f 已最佳届性或值 th 小于 th 的在左边，大于 th 的在右边子树优缺点能够处理大量特征的分类，并且还不厍做特征选择在训练完成之后能拾出哪些 feature 的比较市要训练涑度很快很容易并行实现相对来说较为简单 G B D T GBDT 的精髓在于训练的时候都是以上一颗树的残差为目标，这个残差就是上一个树的预测值与真实值的差值。比如，当前样本年豁罡 18 岁，那么第一颗会去按 18 岁来训练，但罡训练完之后预测的年豁为 12 岁，差值为的所以第二颗树的会以 0 岁来进行训练，假如训练完之后预测出来的结果为的那么两棵树加起来就罡夏实年豁了，但罡假如第二颗树预测出来的结果罡 5 ，那么愆余的残差 1 就会父第三个树去训练。 B 。 osting 的好处就是每一步的参加就是变相了增加了分错 instance 的权重，而对已对的 Instan （ e 趋向于 0 这样后面的树就可以更加关注错分的 Instan （ e 的训练了 Shrinkage Shrinkage 认为，每次击一小步逐步逼近的结果要比每次迈一大步逼近结果更加容易僻免过拟合。 y （ 1 囗 0 二 y （ 1 山一 1 ） + step 囗尹就像我们做互网，总是先解决 60 ％厍户的需求凑台着，冉解决 35 ％厍户的需求，最后才关注那 5 ％人的需求，这样就能逐渐扌巴产品做好 · 调叁树的个数 100 “ 10000 叶子的深度 3 “ 8 学习涑率 0 · 01 以叶子上最大节点树 2 0 训练采样比例 0 · 5 “ 1 训练特征采样比例 sqrt(num) 优缺点精度高能处理非线性数据能处理多特征类型适合低维稠密数据并行麻烦（因为上下两颗树有系）多分类的时候复杂度很大最小二乘法最小二乘法是一种数学的优化技术，通过求最小化平方误差来寻找最佳的函数匹配假设觋在有二维的观测数据伛 1 ， (l), （ x2 ， (2).. 、（ xn ， yn ），求 y=a+bx 的拟合觋设 y a + b 囗 xi + k 如果有 a ， b 能得到〗 N 1 （ l) 最小，则该线比较理想所以先变为求 mn()N 1 （ ki ）），这个与 min(iNi 二 1 （ k2i)) 等而 k=yi—(a+b 囗 xi) 那么觋设忙〗 i 二 IN （（ yi 一（ a + b 囗 (i))2 ）求其最小即可上述就是最小二乘原则，估计 a ， b 的方法称为最小二乘先求 f 对 a ， b 的偏导号af二一2 囗 Nii=l(yi—(a+b 囗 xi))=O 号bf二一2 囗 xi 囗 Nii=l(yi—(a+b 囗 xi))=O 觋设 X=)Ni=1xiNY=iNi=1yiN 则代入上述偏导 a 囗 N+b 囗 N 囗 X=N 囗 Ya 囗 N 囗 X+b 囗 Nii=1(x2i)=Nii=1(xi 囗 yi) 求该行列式、丨 NN 囗 × N 囗 X 〗 Ni 二 Ix2i 卜 N 囗 N 二 1 （（ xi 一 X ）月二 0 所以有唯一解最后记 I(xx)=Nii=1(xi—X)21(yy)=Nii=1(yi—Y)21(xy)=Nii=1((xi b=l(xy)l(xx)a=Y—b 囗 X 自度文库一最小二乘法 EM 于隐含变量的概率忄莫型的极大似然估计，它一般分为呐步．第一步求期望（ E), 第二步求极大（ M), 如果概率忄莫型的变量都是观测变量，那么给定数据之后就可以直唼使极大似然法或者贝叶斯估计忄莫型参数。但是当忄莫型含有隐含变量的时佞就不能简单的这些方法来估计， EM 就是一种含有隐含变量的概率忄莫型参数的极大似然估计法。应到的地方：混合高斯忄莫型、混合朴素贝叶斯忄莫型、因子分析忄莫型 Bagging 从 N 样本中有放回的采样 N 个样本对这 N 个样本在全属性上建立分类器（ CART ， SVM ）市复上面的步骤，建立 m 个分类器预测的时候使厍投票的方法得到结果 Boosting b 。 osting 在训练的时佞会样本加一个权重，然后使 fun （ t n 尽量去考虑那些分错类的样本（比如给分错类的样本的权重值加大）凸优化在机器学习中往往是最终要求解某个函数的最优值，但是一般情况下，任意一个函数的最优值求解比较困唯，但是对于凸函数来说就可以有戏的求解出全局最优值凸集一个集合 C 是当前仅当任意 x ， y 届于 C 且 0 孓 e 孓 1 ，都有 e 囗 x+(1-€) 囗于 C 通俗的话来说 c 集合线段上的任意叻点也在 c 集合中凸函數一个函数 f 其定义域（ D （ f 月是凸集，并且对任意 x ， y 届于 D （ f ）和 0 孓 e 孓 1 都有 f(€ 囗 X+(l—€) 囗 y)’€) 囗 f(x)+(l—€) 囗 f(y) 通俗的话来说就是曲线上任意叻点的割线都在曲线的上方常见的凸函数有 · 俨数函数 f （ x 片 ax ， a > 1 · 负对数函数一 gax ； a > 1 ， x > 0 · 开口向上的二次函数等凸函数的判定如果 f 是一阶可导，对于任意数据域内的 x ， y 满足如果 f 是二阶可导凸优化应用举例 · sVM 其中由 ma 刈 w ] 转向 min （ 12 囗 № 团 · 最小二乘法？ · LR 的 HÆäi(yiOlog(hw(xi))+ (I—yi) 囗 (log(l—hw(xi)))) [1].http://www.cnblogs.com/le002sk/archive/2010/09 bayesian-classifier.html [2].http://www.cnblogs.com/biyeymyhj0b/archive/201 [3] 、 http://blog 、 csdn 、 net/abcjennifer/article/details/7 [4].http//ufldl.stanford 、 edu/wlkl/index 、 php/Softmax8 [ 习、《统计学习方法》李航资料主要来源于网络或者《统计学习方法》部分的总结，如果错误之处敬请指出来自． http://t.cn/RqNp GM 还有自己一小
 查看源微博
已使用 Microsoft OneNote 2016 创建。