机器学习常见算法个人总结(面试用)
    Tuesday, May 24, 2016
    11:07 PM

    |

    | | —- |

    | Tags: #微博 |

    计算机生成了可选文字:
    IT程序猿
    05/24/2016
    【机器学习常见算法个人总结(面试用)】本文总结了机器学习常见算法,需要的小伙伴赶紧收藏吧~http://t.cn/RqprcMj(来自: kubicode’blog )
    ![计算机生成了可选文字: 本 文 来 自 : kubicode’blo 版 权 归 届 原 作 者 机 器 学 习 常 见 算 法 个 人 总 结 ( 面 试 用 ) @仃 程 厚 猿 & & 酷 勤 网 制 作 对 悱 版 看 不 下 去 了 , 将 本 文 的 公 式 使 厍 《 《 “ 一 市 与 了 · 0 n 2 016 一 0 4 一 15 朴 素 贝 叶 斯 《 参 考 [ 1 ] 事 件 《 A 和 《 13 同 时 发 生 的 概 率 为 《 在 发 生 的 情 况 下 发 生 岿 或 者 在 13 发 生 的 情 况 下 发 生 A P(AnB)=P(A) 囗 P(BIA)=P(B) 囗 P(AIB) 所 以 有 P(AIB)=P(BIA) 囗 P(A)P(B) 对 于 给 出 的 待 分 类 项 , 求 解 在 此 项 出 觋 的 条 件 下 各 个 目 标 类 别 出 觋 的 概 率 , 哪 个 最 大 , 就 认 为 此 待 分 类 项 届 于 哪 个 类 别 工 作 原 理 假 设 现 在 有 样 本 x = ( al , a2 , a3 。 an ) 这 个 待 分 类 项 ( 并 认 为 x 里 面 的 特 征 独 立 ) 冉 假 设 现 在 有 分 类 目 标 Y = { yl , Y2 , y3 , y4 一 yn } 那 么 max(P(y11x),P(y21x),P(y31x)..P(ynlx)) 就 是 最 终 的 分 类 类 别 fiP(yilx)=p(xlyi) 囗 P(yi)P(x) 因 为 x 对 于 每 个 分 类 目 标 来 说 都 一 样 , 所 以 就 是 求 max(P(xlyi) 囗 p(yi)) P(xlyi) 囗 p(yi)=p(yi) 囗 Ili(P(ailyi)) 而 具 体 的 p ( a 刂 yi ) 和 p ( yi ) 都 是 能 从 训 练 样 本 中 统 计 出 p ( a 刂 yi ) 表 亍 该 类 别 下 该 特 征 出 现 的 概 率 p ( yi ) 表 示 全 部 类 别 中 这 个 这 个 类 别 出 现 的 概 率 好 的 , 就 是 这 么 工 作 的 ^ 一 ^ 工 作 流 程 准 备 阶 段 确 定 特 征 属 性 , 并 对 每 个 特 征 属 性 进 行 适 当 划 分 , 然 后 由 人 工 对 一 部 分 待 分 类 项 进 行 分 类 , 形 成 训 练 样 本 。 训 练 阶 段 计 算 每 个 类 别 在 训 练 样 本 中 的 出 现 频 率 及 每 个 特 征 属 性 划 分 对 每 个 类 别 的 条 僻 概 率 估 计 应 厍 阶 段 使 厍 分 类 器 进 行 分 类 , 输 入 是 分 类 器 和 待 分 类 样 本 , 输 出 是 样 本 属 于 的 分 类 类 别 属 性 特 征 特 征 为 离 散 值 时 直 接 统 计 即 可 ( 表 示 统 计 概 率 ) 特 征 为 连 续 值 的 时 候 假 定 特 征 符 合 高 斯 分 布 g 区 n, u) 那 么 p(aklyi)=g(xk,ni,ui) La a ( e 校 准 ( 拉 普 拉 斯 校 验 ) 当 某 个 类 别 下 某 个 特 征 划 分 没 有 出 觋 时 , 会 有 P ( a 阴 二 0 , 就 是 导 致 分 类 器 质 量 降 低 , 所 以 此 时 引 入 Lap ] a ( e 校 验 就 让 对 没 类 别 下 所 有 划 分 的 计 数 加 1 。 遇 到 特 征 之 间 不 独 立 问 题 参 考 改 进 的 贝 叶 斯 网 络 使 DAG 《 来 进 行 概 率 图 的 描 述 优 缺 点 朴 素 贝 叶 斯 的 优 点 对 小 规 椏 的 数 据 表 现 很 好 , 适 合 多 分 类 任 务 , 适 合 t 雪 量 式 训 练 。 对 输 入 数 据 的 表 达 形 式 很 敏 感 ( 离 散 、 连 续 , 值 极 大 极 小 之 类 的 ) 。 逻 辑 回 归 和 线 性 回 归 《 参 考 [ 2 , 3 , 4 ] 回 归 是 一 个 线 性 的 二 分 类 馍 型 , 芏 要 是 计 算 在 某 个 样 本 特 征 下 事 件 发 生 的 概 率 《 , 比 如 根 据 户 的 测 跪 购 买 情 兄 作 为 特 征 来 计 笪 它 是 否 会 购 买 这 个 商 品 , 抑 或 是 它 是 否 会 点 击 这 个 商 品 。 然 后 “ 的 最 终 值 是 根 据 一 《 性 和 函 数 再 通 过 一 个 函 数 来 求 得 这 个 线 性 和 函 数 s i Ill 0 d 权 重 与 特 征 值 的 累 加 以 及 加 上 偏 置 求 出 来 的 , 所 以 在 训 练 [R 时 也 就 是 在 训 练 线 性 和 函 数 的 各 个 权 重 值 hw(x)=11+e—(wTx+b) 关 于 这 个 权 重 值 w 《 一 般 使 最 大 似 然 法 来 估 计 , 假 设 觋 在 有 样 本 仅 , 力 }, 其 中 刈 表 示 样 本 的 特 征 , y ] 三 { 0 , 1 } 表 亍 样 本 的 分 类 真 实 值 , yi 二 1 的 概 率 是 pi, 则 yi 二 0 的 概 率 是 1 一 pi , 那 么 观 测 概 率 为 p ( YD 二 pyll 囗 ( 1 一 p01 一 尹 则 最 大 似 然 函 数 为 Il(hw(xl)YlO(1-hw(xi))1—yi) 对 这 个 似 然 函 数 取 对 数 之 后 就 会 得 到 的 表 达 式 L(w)=)i(YlOloghw(x1)—(1—Yl) 囗 log(l—hw(xi)))=ii(yi 囗 (w 估 计 这 个 L(w ) 的 极 大 值 就 可 以 得 到 w 的 估 计 值 《 实 际 操 作 中 一 般 会 加 个 负 号 改 为 求 最 小 所 以 求 解 问 题 就 变 成 了 这 个 最 大 似 然 函 数 的 最 优 化 问 题 , 这 里 通 常 会 采 样 随 机 悌 度 下 降 法 和 拟 牛 顿 迭 代 法 来 进 行 优 化 梯 度 下 降 法 的 损 实 函 数 为 豇 w 片 一 INN 》 二 1 ( 力 囗 g ( hw ( (i)) + (I—yi) 囗 log(l—hw(xi))) 这 样 就 变 成 了 求 mi n(J(w)) 其 更 新 w 的 过 程 为 w:=w—a 囗 •J(w)w.=w—a 囗 IN 囗 Nii=l(hw(xi)—yi) 囗 xi) 其 中 a 为 步 长 , 直 到 豇 w ) 不 能 再 小 时 停 止 悌 度 下 降 法 的 最 大 问 题 就 是 会 陷 入 局 部 最 优 , 并 且 每 次 在 对 当 前 样 本 计 笪 “ “ 的 时 佞 都 需 要 去 遍 历 全 部 样 本 才 能 得 到 cost 值 , 这 样 计 笪 速 度 会 慢 很 多 ( 虽 然 在 计 笪 的 时 候 可 以 转 为 矩 阵 乘 法 去 更 新 整 个 w 值 所 以 觋 在 好 多 框 架 ( Iliahout 《 ) 中 一 般 使 随 机 悌 度 下 降 法 , 它 在 计 笪 cost 的 时 佞 口 计 笪 当 前 的 代 价 , 最 终 是 在 全 部 样 本 迭 代 一 遍 之 求 和 得 出 , 还 有 他 在 更 新 C 0 S [ 当 前 的 参 数 w 的 时 佞 并 不 是 依 次 遍 历 样 本 , 而 是 从 所 有 的 样 本 中 随 机 选 降 一 条 进 行 计 笪 , 它 方 法 收 敛 速 度 快 ( 一 般 是 使 最 大 迭 代 次 数 ) , 并 且 还 可 以 僻 免 局 部 最 优 , 并 且 还 很 容 易 并 行 ( 使 参 数 服 务 器 的 方 式 进 行 并 行 ) w:=w—a 囗 (hw(xJ)—YJ) 囗 xl);je1Nandrandomly 这 里 GD 《 可 以 改 进 的 地 方 就 是 使 动 态 的 步 长 a 二 0 、 0 4 囗 ( 1 、 0 + n + 0 + r 其 他 优 化 方 法 · 拟 牛 顿 法 ( 记 得 是 需 要 使 Hessia n 分 解 ) · BFGS L-BFGS 和 cholesky 《 优 缶 夫 点 : 无 需 选 择 学 习 率 a , 更 快 , 但 是 更 复 杂 关 于 LR 的 过 拟 合 问 题 : 如 果 我 们 有 很 多 的 特 性 , 在 训 练 集 上 拟 台 得 很 好 , 但 是 在 预 测 集 上 却 达 不 到 这 种 效 果 减 少 feature 个 数 ( 人 工 定 义 多 少 个 feature 、 算 法选 取 这 些 feature ) 正 则 化 ( 为 了 方 便 求 解 0@ 使 厍 较 多 ) 添 加 正 则 化 之 后 的 损 失 函 数 为 :J(w)=-1N>Ni=1(yiülog(hw(xi))+ (I-yi)Dlog(1-hw(xi)))+Xllw112 同 时 w 的 更 新 变 为 w:=w-a 囗 (hw(xj)-yj) 囗 (i)-2a 囗 wj 注 意 : 这 里 的 wo 不 受 正 则 化 影 响 关 于 LR 的 多 分 类 : softmax 假 设 离 散 型 随 机 变 量 Y 的 取 值 集 合 是 { 1 , 2 一 , k}, 则 多 分 类 的 LR 为 P(Y=alx)=exp(wa 囗 幻0k二1(wi 囗 x));l b 构 造 叶 子 节 点 , 分 别 以 上 面 两 个 区 域 中 a2 的 中 位 数 作 为 切 分 点 , 冉 次 将 他 们 两 两 划 分 , 作 为 深 度 1 的 叶 子 节 点 , ( 如 果 a2 = 中 位 数 , 则 a2 的 实 例 落 在 切 分 面 ) 不 断 市 复 2 的 操 作 , 深 度 为 j 的 叶 子 节 点 划 分 的 时 候 , 索 取 的 ai 的 i 司 % k 十 1 , 直 到 两 个 子 区 域 没 有 实 例 时 停 止 KD 树 的 搜 索 首 先 从 根 节 点 开 始 递 归 往 下 找 到 包 含 x 的 叶 子 节 点 每 一 层 都 是 找 对 应 的 xi 将 这 个 叶 子 节 点 认 为 是 当 前 的 “ 近 似 最 近 点 “ 递 归 向 上 回 退 , 如 果 以 x 圆 心 , 以 “ 近 似 最 近 点 “ 为 半 径 的 球 与 根 节 点 的 另 一 半 子 区 域 边 界 柜 交 , 则 说 明 另 一 半 子 区 域 中 存 在 与 x 更 近 的 点 , 则 进 入 另 一 个 子 区 域 中 奋 找 该 点 并 且 更 新 “ 近 似 最 近 点 市 复 3 的 步 骤 , 直 到 另 一 子 区 域 与 球 体 不 柜 交 或 者 退 回 根 节 点 最 后 更 新 的 “ 近 似 最 近 点 “ 与 x 真 正 的 最 近 点 KD 树 进 行 找 通 过 KD 树 的 搜 索 找 到 与 搜 索 目 标 最 近 的 点 , 这 样 KNN 的 搜 索 就 可 以 被 限 制 在 空 间 的 局 部 区 域 上 了 , 可 以 大 大 堆 加 戏 率 。 KD 树 搜 索 的 复 杂 度 当 实 例 随 机 分 布 的 时 佞 , 搜 索 的 复 杂 度 为 g ( N ) , N 为 实 例 的 个 数 , KD 树 更 加 适 于 实 例 数 量 远 大 于 空 间 维 度 的 KNN 搜 索 , 如 果 实 例 的 空 间 维 度 与 实 例 个 数 差 不 多 时 , 它 的 效 率 基 于 等 于 线 性 扫 描 后 来 自 己 有 实 现 过 KD 树 , 可 以 看 KNN 算 法 中 KD 树 的 应 厍 SVM, SMO 对 于 样 本 点 ( xi , yi ) 以 及 svm 的 超 平 面 . wTxi+b=O · 函 数 间 隔 : yi(wTxi+b) · 几 何 间 隔 : 力 ( wT 刘 + b 渊 w 伟 其 中 llwll 为 w 的 L2 范 数 几 何 间 隔 不 会 因 为 参 数 比 例 的 改 变 而 改 变 svm 的 基 本 想 法 就 是 求 解 能 正 确 划 分 训 练 样 本 并 且 其 几 何 间 隔 最 大 化 的 詔 平 面 。 线 性 SVM 问 题 先 来 看 svm 的 问 题 argmaxw,byst.yi(wTxi+b)llwll>-y 那 么 假 设 、 WII 则 将 问 题 转 为 argmaxw,WYllwllst.yi(wTxi+b)>1 由 于 、 的 成 比 例 增 减 不 会 影 响 实 际 间 距 , 所 以 这 里 的 取 、 二 1 , 又 因 为 max 叫 № ] l) 二 mn ( 12 啩 w 扫 2 ) 所 以 最 终 的 问 题 就 变 为 了 argmnw,b12 囗 llw112st 、 yi(wTxi+b)>1 这 样 就 变 成 了 一 个 凸 的 二 次 划 化 , 可 以 将 其 转 换 为 拉 格 朗 日 函 数 , 然 后 使 对 偶 笪 法 来 求 解 对 偶 求 解 引 进 拉 格 朗 日 乘 子 a 圳 al , a2 一 an}, 定 义 拉 格 朗 日 函 数 L(w,b,a)=12 囗 ]№H2一〗i二1N(山 囗 yi(wTxi+b))+)(ai) 根 据 对 偶 性 质 原 始 问 题 就 是 求 对 偶 问 题 的 极 大 极 小 maxaminw,bL(w,b,a) 先 求 L 对 w , b 的 极 小 , 再 求 对 a 的 极 大 。 求 minw,bL(w,b,a) , 也 就 是 相 当 于 对 w , b 求 偏 导 并 且 另 其 等 vwL(w,b,a)=w—ii=1N(aiyixi)=OvbL(w,b,a)=ii=1N(aiyi 代 入 后 可 得 minw,bL(w,b,a)=—12 囗 Nii=1Nb=1(aiajyiYJ(xi 囗 xj))+N) 求 minw,bL(w,b,a) 对 a 的 极 大 , 即 是 对 偶 问 题 maxa 一 12 囗 N 〗 i 二 IN 习 二 1 ( ajy ] 刃 ( 刈 囗 月 + N 〗 i 二 laist 、 〗 i , N 将 求 最 大 转 为 求 最 小 , 得 到 等 价 的 式 子 为 mina12 囗 N 〗 IN 习 二 1 ( a 丨 y ] 刃 ( 刈 囗 刈 月 一 N 〗 i 二 laist 、 〗 i 二 N 假 如 求 解 出 来 的 a 为 a 囗 a 囗 1 , a 囗 2 。 、 a 囗 n ) 则 得 到 最 优 的 w , b 分 别 为 w 囗 二 N 〗 产 1 ( a 山 y 以 Db 囗 二 力 一 N 〗 i 二 1 ( a 囗 iyi ( xi 囗 xj 月 所 以 , 最 终 的 决 策 分 类 面 为 f(x)=sign(N)i=1(a 囗 IY1(x 囗 (i)+b 囗 ) 也 就 是 说 , 分 类 决 策 函 数 R 依 赖 于 输 入 x 与 训 练 样 本 的 输 入 的 内 积 ps : 上 面 介 绍 的 是 SVM 的 硬 间 距 最 大 化 , 还 有 一 种 是 软 间 距 最 大 化 , 引 厍 了 松 弛 变 量 ( , 则 次 svm 问 题 变 为 argminw,b12 囗 llw112+CN)i=1(ist.yi(wTxi+b)21- N 其 余 解 决 是 与 硬 间 距 的 一 致 一 还 有 : 与 分 离 詔 平 面 最 近 的 样 本 点 称 为 支 扌 寺 向 量 损 失 函 數 损 实 函 数 为 ( 优 化 目 标 ) Nii=1[1—yi(wTxi+b)J++Ällw112 其 中 [ 1 一 yi ( wTxi + b 月 + 称 为 折 页 损 失 函 数 , 因 为 : [ 1 一 力 ( wT 刘 + b 月 + 二 {Oif1—yi(wTxi+b)S01—yi(wTxi+b)otherwise 为 什 么 要 引 入 对 偶 算 法 对 偶 问 题 往 往 更 加 容 易 求 解 ( 结 合 拉 格 朗 日 和 kkt 条 可 以 很 自 然 的 引 厍 核 函 数 ( 拉 格 朗 日 表 达 式 里 面 有 内 积 , 而 核 函 数 也 是 过 内 积 进 行 映 射 的 ) 核 函 數 将 输 入 特 征 x ( 线 性 不 可 分 ) 映 射 到 高 维 特 征 R 空 间 , 可 以 在 R 空 间 上 让 SVM 进 行 线 性 可 以 变 , 这 就 是 核 函 数 的 作 · 多 项 式 核 函 数 . K ( x , z 片 ( x 囗 z + 1 ) p · 高 斯 El%lä:K(x,z)=exp(-(x-z)202) · 字 符 串 核 函 数 : 貌 似 于 字 符 串 处 理 等 SVMØtN 点 使 厍 核 函 数 可 以 向 高 维 空 间 进 行 映 射 使 厍 核 函 数 可 以 解 决 菲 线 性 的 分 类 分 类 思 想 很 简 单 , 就 是 将 样 本 与 决 策 面 的 间 隔 最 大 化 分 类 效 果 较 好 对 大 规 椏 数 据 训 练 比 较 困 难 无 法 直 接 支 扌 寺 多 分 类 , 但 是 可 以 使 厍 间 接 的 方 法 来 做 SMO SMO 是 于 快 速 求 解 SVM 的 它 选 降 凸 二 次 划 的 叻 个 变 量 , 其 他 的 变 量 保 恃 不 变 , 然 后 根 据 这 叻 个 变 量 构 建 一 个 二 次 划 问 题 , 这 个 二 次 划 关 于 这 叻 个 变 量 解 会 更 加 的 接 近 原 始 二 次 划 的 解 , 通 过 这 样 的 子 问 题 划 分 可 以 大 大 堆 加 整 个 笪 法 的 计 笪 速 度 , 关 于 这 呐 个 变 量 其 中 一 个 是 严 市 违 反 KKT 条 僻 的 一 个 变 量 另 一 个 变 量 是 根 据 自 由 约 束 确 定 , 好 像 是 求 剩 余 变 量 的 最 大 化 来 确 定 的 。 SVM 多 分 类 问 题 直 接 法 直 接 在 目 标 函 数 上 进 行 修 改 , 将 多 个 分 类 面 的 参 数 求 解 台 并 到 一 个 最 优 化 问 题 中 , 涌 过 求 解 该 优 化 就 可 以 实 现 多 分 类 ( 计 算 复 杂 度 很 高 实 现 起 来 较 为 困 难 ) 间 接 法 一 对 多 其 中 某 个 类 为 一 类 , 其 余 n 一 1 个 类 为 另 一 个 类 , 比 如 A,B,C,D!! 个 类 , 第 一 次 A 为 一 个 类 , {B,C,D} 为 一 个 类 训 练 一 个 分 类 器 , 第 二 次 8 为 一 个 类 , { A , c , D } 为 另 一 个 类 , 按 这 方 式 共 需 要 训 练 4 个 分 类 , 最 后 在 测 试 的 时 候 将 测 试 样 本 经 过 这 4 个 分 类 器 fl ( x),f2 ( x),f3 ( x ) 和 f4 ( x), 取 其 最 大 值 为 分 类 ( 这 种 方 式 由 于 是 1 对 M 分 类 , 会 存 在 偏 置 , 很 不 实 厍 ) 一 对 一 (libsvm 实 现 的 方 式 ) 任 意 两 个 类 都 训 练 一 个 分 类 , 那 么 n 个 类 就 需 要 n ( n 一 1 ) / 2 个 svm 分 类 。 还 是 以 A,B,C,D 为 例 , 那 么 需 { A , D}, { 8 , C}, { 8 , D}, { C , D } 为 目 标 共 6 个 分 类 然 后 在 预 测 的 将 测 试 样 本 诵 过 这 6 个 分 类 器 之 后 进 行 投 票 选 择 最 终 结 果 。 ( 这 种 方 法 虽 好 , 但 是 需 要 n ( n 一 1 ) / 2 个 分 类 器 代 价 太 大 , 不 过 有 好 像 使 厍 循 环 图 来 进 行 改 进 ) 决 策 树 决 策 树 是 一 颗 依 托 决 策 而 建 立 起 来 的 树 。 I D 3 首 先 是 针 对 当 前 的 集 合 , 计 算 每 个 特 征 的 信 息 增 益 然 后 选 择 信 息 增 益 最 大 的 特 征 作 为 当 前 节 点 的 决 策 决 策 特 征 根 据 特 征 不 同 的 类 别 划 分 到 不 同 的 子 节 点 ( 比 如 年 龄 特 征 有 青 年 , 中 年 , 老 年 , 则 划 分 到 3 颗 子 树 ) 然 后 继 续 对 子 节 点 进 行 递 归 , 直 到 所 有 特 征 都 被 划 分 S(C,ai)=—ii(piOlog(pi)) 一 个 届 性 中 某 个 类 别 的 Epi 二 P(y 刂 (i), pi 表 示 ai 情 况 下 发 生 yi 的 概 率 , 也 即 是 统 计 概 率 。 S(C,A)=ii(P(A=ai) 囗 S(ai)) 整 个 届 性 的 箔 , 为 各 个 类 别 的 比 例 与 各 箔 的 加 权 求 和 。 Gam(C,A)= S ( 0 —S (C,A) 增 益 表 亍 分 类 目 标 的 箔 减 去 当 前 届 性 的 箔 , 堆 益 越 大 , 分 类 能 力 越 强 ( 这 里 前 者 叫 做 验 箔 , 表 亍 数 据 集 分 类 c 的 不 确 定 性 , 后 者 就 是 条 件 箔 , 表 亍 在 给 定 A 的 条 件 下 对 数 据 集 分 类 c 的 不 确 定 性 , 呐 者 相 减 叫 做 互 信 息 , 决 策 树 的 堆 益 等 价 于 互 信 比 如 说 当 前 届 性 是 是 否 有 房 产 , 分 类 是 是 否 能 偿 还 债 务 现 在 · 有 房 产 为 7 个 , 4 个 能 偿 还 愦 务 , 3 个 无 法 偿 还 愦 务 · 然 后 无 房 产 为 3 个 , 其 中 1 个 能 偿 还 债 务 , 2 个 无 法 偿 还 债 务 有 房 子 的 箔 : S(have h 。 use 片 一 ( 47 囗 g47 + 37 囗 g37 ) 无 房 子 的 箔 : S()o house 片 一 ( 13 囗 g13 + 23 囗 g2 引 分 类 的 箔 : S ( classifier ) 二 一 ( 510 囗 g510 + 510 囗 g510 ) 最 终 的 增 益 =S(classifier)—(710 囗 S(have house)+310 囗 S()o house) 最 大 越 好 关 于 损 实 函 数 设 树 的 叶 子 节 点 个 数 为 0 t 为 其 中 一 个 叶 子 节 点 , 该 叶 子 节 点 有 Nt 个 样 本 , 其 中 k 类 的 样 本 有 Ntk 个 , H(t) 为 叶 子 节 点 上 的 箔 , 则 陨 实 函 数 定 义 为 Ct(T 片 Nt 囗 H ( t 月 + 入 仃 丨 其 中 H(t)=i(NtkNtOlog(NtkNt)) 代 入 可 以 得 到 Ct(T)=)()(Ntk 囗 log(Ntk/Nt)))+ÄlTl 入 田 为 正 则 化 项 , 入 是 于 调 节 比 率 决 策 树 的 生 成 R 者 虑 了 信 息 增 益 C 4 . 5 它 是 [ D3 的 一 个 改 进 笪 法 , 使 信 息 增 益 率 来 进 行 届 性 的 选 split[nformation(S,A)=—ii(lSillSl 囗 log2(lSlllSl))GainRatio(S,A)=Gain(S,A)split[nformati0 优 缺 点 准 确 率 高 但 是 子 构 造 树 的 过 程 中 需 要 进 行 多 次 的 扫 描 和 排 序 , 所 以 它 的 运 笪 效 率 较 低 C a r t 分 类 回 归 树 (Classification And Regression Tree)Z— 《 决 策 二 叉 树 , 在 通 过 递 旧 的 方 式 建 立 , 每 个 节 点 在 分 裂 的 时 佞 都 是 希 望 通 过 最 好 的 方 式 将 余 的 样 本 划 分 成 呐 类 , 这 里 的 分 类 指 五 分 类 树 . 基 尼 指 数 最 小 化 (giniindex) 回 归 树 : 平 方 误 差 最 小 化 分 类 树 首 先 是 根 据 当 前 特 征 计 算 他 们 的 基 尼 t 雪 益 选 择 基 尼 增 益 最 小 的 特 征 作 为 划 分 特 征 从 该 特 征 中 查 找 基 尼 指 数 最 小 的 分 类 类 别 作 为 最 优 划 分 点 将 当 前 样 本 划 分 成 两 类 , 一 类 是 划 分 特 征 的 类 别 等 于 最 优 划 分 点 , 另 一 类 就 是 不 等 于 针 对 这 两 类 递 归 进 行 上 述 的 划 分 工 作 , 直 达 所 有 叶 子 指 向 同 一 样 本 目 标 或 者 叶 子 个 数 小 于 一 定 的 或 值 g 丽 来 度 量 分 布 不 均 匀 性 ( 或 者 说 不 纯 ) , 总 体 的 类 别 越 杂 乱 , G [ N [ 指 数 就 越 大 ( 跟 箔 的 概 念 很 相 似 ) 引 m ( 引 片 1 一 习 ( p20 pi 当 前 数 据 集 中 第 i 类 样 本 的 比 例 gim 越 小 , 表 亍 样 本 分 布 越 均 匀 ( 0 的 时 候 就 表 示 只 有 一 类 了 ) , 越 大 越 不 均 匀 基 尼 tægmi-gain=ii(NiN 囗 gini(ai)) 表 亍 当 前 届 性 的 一 个 混 乱 Ni N 表 亍 当 前 类 别 占 所 有 类 别 的 概 率 最 终 Cart 选 }_Gi niGai n 最 小 的 特 征 作 为 划 分 特 征 以 [ D3 中 的 贷 款 的 那 棵 树 为 样 例 基 尼 俨 数 有 房 产 . g ] m ( have house 片 1 一 ( ( 37 ) 2 + ( 47 ) 2 ) 基 尼 指 数 无 房 产 引 m ( no 一 house 片 1 一 ( ( 1 引 2 + ( 2 引 2 ) 基 尼 增 益 为 :g1m_gain=710 囗 gini(have house)+310 囗 gini()o hou 回 归 树 《 回 归 树 是 以 平 方 误 差 最 小 化 的 准 则 划 分 为 两 块 区 过 历 特 征 计 算 最 优 的 划 分 点 s 使 其 最 小 化 的 平 方 误 差 是 min{min(R1.sigma((yi-c1)2))+min(R2.sigma((yi- 计 算 根 据 s 划 分 到 左 侧 和 右 侧 子 树 的 目 标 值 与 预 测 值 之 差 的 干 方 和 最 小 , 这 里 的 预 测 值 是 两 个 子 树 上 输 入 xi 样 本 对 应 yi 的 均 值 找 到 最 小 的 划 分 特 征 j 以 及 其 最 优 的 划 分 点 s , 根 据 特 征 j 以 及 划 分 点 s 将 现 有 的 样 本 划 分 为 两 个 区 域 , 一 个 是 在 特 征 j 上 小 于 等 于 s , 另 一 个 在 在 特 征 j 上 大 于 s RI(j)={xlx(j)ss}R2(j)={xlx(j)>s} 进 入 两 个 子 区 域 按 上 述 方 法 继 续 划 分 , 直 到 到 达 停 止 条 僻 《 这 里 面 的 最 小 化 我 记 得 可 以 使 厍 最 小 二 乘 法 来 求 关 于 剪 忮 用 独 立 的 验 证 数 据 集 对 训 练 集 生 长 的 树 进 行 剪 忮 ( 事 后 剪 忮 ) 。 停 止 条 件 直 到 每 个 叶 子 节 点 都 只 有 一 种 类 型 的 记 录 时 停 止 , ( 这 种 方 式 很 容 易 过 拟 合 ) 另 一 种 时 当 叶 子 节 点 的 记 录 树 小 于 一 定 的 或 值 或 者 节 点 的 信 息 增 益 小 于 一 定 的 或 值 时 停 止 关 于 特 征 与 目 标 值 特 征 离 散 目 标 值 离 散 : 可 以 使 厍 [ D3 , cart 特 征 连 续 目 标 值 离 散 : 将 连 续 的 特 征 离 散 化 可 以 使 厍 [ D 3 , c a r t 特 征 离 散 目 标 值 连 续 决 策 树 的 分 类 与 回 归 · 分 类 树 输 出 叶 子 节 点 中 所 届 类 别 最 多 的 那 一 类 · 回 刂 彐 树 输 出 叶 子 节 点 中 各 个 样 本 值 的 平 均 值 理 想 的 决 策 树 叶 子 节 点 数 尽 量 少 叶 子 节 点 的 深 度 尽 量 小 ( 太 深 可 能 会 过 拟 合 ) 解 决 决 策 树 的 过 拟 合 剪 枝 前 置 剪 枝 : 在 分 裂 节 点 的 时 候 设 计 比 较 苛 刻 的 条 僻 , 如 不 满 足 则 直 接 停 止 分 裂 ( 这 样 干 决 策 树 无 法 到 最 优 , 也 无 法 得 到 比 较 好 的 效 果 ) 后 置 剪 枝 : 在 树 建 立 完 之 后 , 厍 单 个 节 点 代 替 子 树 , 节 点 的 分 类 采 厍 子 树 中 主 要 的 分 类 ( 这 种 方 法 比 较 浪 前 面 的 建 立 过 程 ) 交 叉 验 证 随 机 森 林 优 缺 点 计 算 量 简 单 , 可 解 释 性 强 , 比 较 适 合 处 理 有 失 属 性 值 的 样 本 , 能 够 处 理 不 相 关 的 特 征 单 颗 决 策 树 分 类 能 力 弱 , 并 且 对 连 续 值 变 量 难 以 处 容 易 过 拟 合 ( 后 续 出 现 了 而 机 森 林 , 减 小 了 过 拟 合 现 随 机 森 林 RF 随 机 森 林 是 有 很 多 随 机 得 决 策 树 构 成 , 它 们 之 间 没 有 关 联 。 得 到 RF 以 后 , 在 顸 测 时 分 别 对 每 一 个 决 策 树 进 行 判 断 , 最 后 使 Bagging 的 思 想 进 行 结 果 的 输 出 ( 也 就 是 投 票 的 思 想 ) 学 习 过 程 现 在 有 N 个 训 练 样 本 , 每 个 样 本 的 特 征 为 M 个 , 需 要 建 K 颗 树 从 N 个 训 练 样 本 中 有 放 回 的 取 N 个 样 本 作 为 一 组 训 练 集 ( 其 余 耒 取 到 的 样 本 作 为 预 测 分 类 , 评 估 其 误 差 ) 从 M 个 特 征 中 取 m 个 特 征 左 右 子 集 特 征 ( m < < M ) 对 采 样 的 数 据 使 厍 完 全 分 裂 的 方 式 来 建 立 决 策 树 , 这 样 的 决 策 树 每 个 节 点 要 么 无 法 分 裂 , 要 么 所 有 的 样 本 都 指 向 同 一 个 分 类 市 复 2 的 过 程 K 次 , 即 可 建 立 森 林 预 测 过 程 将 预 测 样 本 输 入 到 K 颗 树 分 别 进 行 预 测 直 接 使 厍 投 票 的 方 式 选 择 分 类 频 次 如 果 是 分 类 问 题 最 高 的 类 别 如 果 是 回 归 问 题 , 使 厍 分 类 之 后 的 均 值 作 为 结 果 叁 數 问 题 这 里 的 一般 取 m=sqrt(M) 关 于 树 的 个 数 K , 一 般 都 需 要 成 白 上 干 , 但 是 也 有 具 体 的 样 本 有 关 ( 比 如 特 征 数 量 ) 树 的 最 大 深 度 , ( 太 深 可 能 可 能 导 致 过 拟 合 ? ? ) 节 点 上 的 最 小 样 本 数 、 最 小 信 息 t 雪 益 泛 化 误 差 估 计 使 Eoob ( out-of-bag ) 进 行 泛 化 误 差 的 估 计 , 将 各 个 树 的 耒 采 样 样 本 作 为 顸 测 样 本 ( 大 约 有 36 、 8 ‰ ) 使 已 建 立 好 的 森 林 对 各 个 预 测 样 本 进 行 顸 测 , 顸 测 完 之 后 最 后 统 计 误 分 得 个 数 占 总 顸 测 样 本 的 比 率 作 为 RF 的 00b 误 分 率 。 学 习 算 法 [ D3 算 法 : 处 理 离 散 值 的 量 C45 算 法 : 处 理 连 续 值 的 量 cartä : 离 散 和 连 续 两 者 都 合 适 ? 关 于 CART ca rt 可 以 通 过 特 征 的 选 择 迭 代 建 立 一 颗 分 类 树 , 使 得 每 次 的 分 类 平 面 能 最 好 的 将 余 数 据 分 为 呐 类 gini=1-i(p2i) , 表 亍 每 个 类 别 出 觋 的 概 率 和 与 1 的 差 值 分 类 问 题 : argmax(Glni—GimLeft—GinlRlght) 回 旧 问 题 : argmax(Var—VarLeft—VarRlght) 查 找 最 佳 特 征 f 已 最 佳 届 性 或 值 th 小 于 th 的 在 左 边 , 大 于 th 的 在 右 边 子 树 优 缺 点 能 够 处 理 大 量 特 征 的 分 类 , 并 且 还 不 厍 做 特 征 选 择 在 训 练 完 成 之 后 能 拾 出 哪 些 feature 的 比 较 市 要 训 练 涑 度 很 快 很 容 易 并 行 实 现 相 对 来 说 较 为 简 单 G B D T GBDT 的 精 髓 在 于 训 练 的 时 候 都 是 以 上 一 颗 树 的 残 差 为 目 标 , 这 个 残 差 就 是 上 一 个 树 的 预 测 值 与 真 实 值 的 差 值 。 比 如 , 当 前 样 本 年 豁 罡 18 岁 , 那 么 第 一 颗 会 去 按 18 岁 来 训 练 , 但 罡 训 练 完 之 后 预 测 的 年 豁 为 12 岁 , 差 值 为 的 所 以 第 二 颗 树 的 会 以 0 岁 来 进 行 训 练 , 假 如 训 练 完 之 后 预 测 出 来 的 结 果 为 的 那 么 两 棵 树 加 起 来 就 罡 夏 实 年 豁 了 , 但 罡 假 如 第 二 颗 树 预 测 出 来 的 结 果 罡 5 , 那 么 愆 余 的 残 差 1 就 会 父 第 三 个 树 去 训 练 。 B 。 osting 的 好 处 就 是 每 一 步 的 参 加 就 是 变 相 了 增 加 了 分 错 instance 的 权重 , 而 对 已 对 的 Instan ( e 趋 向 于 0 这 样 后 面 的 树 就 可 以 更 加 关 注 错 分 的 Instan ( e 的 训 练 了 Shrinkage Shrinkage 认 为 , 每 次 击 一 小 步 逐 步 逼 近 的 结 果 要 比 每 次 迈 一 大 步 逼 近 结 果 更 加 容 易 僻 免 过 拟 合 。 y ( 1 囗 0 二 y ( 1 山 一 1 ) + step 囗 尹 就 像 我 们 做 互 网 , 总 是 先 解 决 60 % 厍 户 的 需 求 凑 台 着 , 冉 解 决 35 % 厍 户 的 需 求 , 最 后 才 关 注 那 5 % 人 的 需 求 , 这 样 就 能 逐 渐 扌 巴 产 品 做 好 · 调 叁 树 的 个 数 100 “ 10000 叶 子 的 深 度 3 “ 8 学 习 涑 率 0 · 01 以 叶 子 上 最 大 节 点 树 2 0 训 练 采 样 比 例 0 · 5 “ 1 训 练 特 征 采 样 比 例 sqrt(num) 优 缺 点 精 度 高 能 处 理 非 线 性 数 据 能 处 理 多 特 征 类 型 适 合 低 维 稠 密 数 据 并 行 麻 烦 ( 因 为 上 下 两 颗 树 有 系 ) 多 分 类 的 时 候 复 杂 度 很 大 最 小 二 乘 法 最 小 二 乘 法 是 一 种 数 学 的 优 化 技 术 , 通 过 求 最 小 化 平 方 误 差 来 寻 找 最 佳 的 函 数 匹 配 假 设 觋 在 有 二 维 的 观 测 数 据 伛 1 , (l), ( x2 , (2).. 、 ( xn , yn ) , 求 y=a+bx 的 拟合 觋 设 y a + b 囗 xi + k 如 果 有 a , b 能 得 到 〗 N 1 ( l) 最 小 , 则 该 线 比 较 理 想 所 以 先 变 为 求 mn()N 1 ( ki ) ) , 这 个 与 min(iNi 二 1 ( k2i)) 等 而 k=yi—(a+b 囗 xi) 那 么 觋 设 忙 〗 i 二 IN ( ( yi 一 ( a + b 囗 (i))2 ) 求 其 最 小 即 可 上 述 就 是 最 小 二 乘 原 则 , 估 计 a , b 的 方 法 称 为 最 小 二 乘 先 求 f 对 a , b 的 偏 导 号af二一2 囗 Nii=l(yi—(a+b 囗 xi))=O 号bf二一2 囗 xi 囗 Nii=l(yi—(a+b 囗 xi))=O 觋 设 X=)Ni=1xiNY=iNi=1yiN 则 代 入 上 述 偏 导 a 囗 N+b 囗 N 囗 X=N 囗 Ya 囗 N 囗 X+b 囗 Nii=1(x2i)=Nii=1(xi 囗 yi) 求 该 行 列 式 、 丨 NN 囗 × N 囗 X 〗 Ni 二 Ix2i 卜 N 囗 N 二 1 ( ( xi 一 X ) 月 二 0 所 以 有 唯 一 解 最 后 记 I(xx)=Nii=1(xi—X)21(yy)=Nii=1(yi—Y)21(xy)=Nii=1((xi b=l(xy)l(xx)a=Y—b 囗 X 自 度 文 库 一 最 小 二 乘 法 EM 于 隐 含 变 量 的 概 率 忄 莫 型 的 极 大 似 然 估 计 , 它 一 般 分 为 呐 步 . 第 一 步 求 期 望 ( E), 第 二 步 求 极 大 ( M), 如 果 概 率 忄 莫 型 的 变 量 都 是 观 测 变 量 , 那 么 给 定 数 据 之 后 就 可 以 直 唼 使 极 大 似 然 法 或 者 贝 叶 斯 估 计 忄 莫 型 参 数 。 但 是 当 忄 莫 型 含 有 隐 含 变 量 的 时 佞 就 不 能 简 单 的 这 些 方 法 来 估 计 , EM 就 是 一 种 含 有 隐 含 变 量 的 概 率 忄 莫 型 参 数 的 极 大 似 然 估 计 法 。 应 到 的 地 方 : 混 合 高 斯 忄 莫 型 、 混 合 朴 素 贝 叶 斯 忄 莫 型 、 因 子 分 析 忄 莫 型 Bagging 从 N 样 本 中 有 放 回 的 采 样 N 个 样 本 对 这 N 个 样 本 在 全 属 性 上 建 立 分 类 器 ( CART , SVM ) 市 复 上 面 的 步 骤 , 建 立 m 个 分 类 器 预 测 的 时 候 使 厍 投 票 的 方 法 得 到 结 果 Boosting b 。 osting 在 训 练 的 时 佞 会 样 本 加 一 个 权 重 , 然 后 使 fun ( t n 尽 量 去 考 虑 那 些 分 错 类 的 样 本 ( 比 如 给 分 错 类 的 样 本 的 权 重 值 加 大 ) 凸 优 化 在 机 器 学 习 中 往 往 是 最 终 要 求 解 某 个 函 数 的 最 优 值 , 但 是 一 般 情 况 下 , 任 意 一 个 函 数 的 最 优 值 求 解 比 较 困 唯 , 但 是 对 于 凸 函 数 来 说 就 可 以 有 戏 的 求 解 出 全 局 最 优 值 凸 集 一 个 集 合 C 是 当 前 仅 当 任 意 x , y 届 于 C 且 0 孓 e 孓 1 , 都 有 e 囗 x+(1-€) 囗 于 C 通 俗 的 话 来 说 c 集 合 线 段 上 的 任 意 叻 点 也 在 c 集 合 中 凸 函 數 一 个 函 数 f 其 定 义 域 ( D ( f 月 是 凸 集 , 并 且 对 任 意 x , y 届 于 D ( f ) 和 0 孓 e 孓 1 都 有 f(€ 囗 X+(l—€) 囗 y)’€) 囗 f(x)+(l—€) 囗 f(y) 通 俗 的 话 来 说 就 是 曲 线 上 任 意 叻 点 的 割 线 都 在 曲 线 的 上 方 常 见 的 凸 函 数 有 · 俨 数 函 数 f ( x 片 ax , a > 1 · 负 对 数 函 数 一 gax ; a > 1 , x > 0 · 开 口 向 上 的 二 次 函 数 等 凸 函 数 的 判 定 如 果 f 是 一 阶 可 导 , 对 于 任 意 数 据 域 内 的 x , y 满 足 如 果 f 是 二 阶 可 导 凸 优 化 应 用 举 例 · sVM 其 中 由 ma 刈 w ] 转 向 min ( 12 囗 № 团 · 最 小 二 乘 法 ? · LR 的 HÆäi(yiOlog(hw(xi))+ (I—yi) 囗 (log(l—hw(xi)))) [1].http://www.cnblogs.com/le002sk/archive/2010/09 bayesian-classifier.html [2].http://www.cnblogs.com/biyeymyhj0b/archive/201 [3] 、 http://blog 、 csdn 、 net/abcjennifer/article/details/7 [4].http//ufldl.stanford 、 edu/wlkl/index 、 php/Softmax8 [ 习 、 《 统 计 学 习 方 法 》 李 航 资 料 主 要 来 源 于 网 络 或 者 《 统 计 学 习 方 法 》 部 分 的 总 结 , 如 果 错 误 之 处 敬 请 指 出 来 自 . http://t.cn/RqNpGM 还 有 自 己 一 小
    查看源微博
    已使用 Microsoft OneNote 2016 创建。