邓光勇-机器学习概念 - 《人工智能学习笔记》

1.机器学习定义：
一个程序能够从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时性能有所上升。以下棋为例子
E 程序上万次自我练习的经验
T 下棋
P 与对手比赛时，赢得的概率
又如假设一个电子邮件程序会观察收到的邮件是否被标记为垃圾邮件，在这种Email客户端中，你点击垃圾邮件按钮报告某些email为垃圾邮件，不会影响别的邮件。基于被标记为垃圾的邮件，程序能更好的学习如何过滤垃圾邮件。
T 标记邮件是否为垃圾邮件
E 观察你标记邮件是否为垃圾邮件
P 区分垃圾邮件成功的正确率
2.机器学习的分类
（1）监督学习：
训练数据中的每一个输入都有对应的确定的输出，就像给每个问题提供一个标准答案一样，我们告诉计算机每个输入所对应的标准的输出，期望计算机能够学习到输入输出之间的联系，并对新的输入能够给出一个正确的输出。对于监督学习主要有两类问题：回归（Regression）和分类（Classification）。
（2）无监督学习：
在这一类学习算法中，我们只给定输入数据，但是没有指定对应的输出，就像对于考试没有标准答案一样，我们没有告诉计算机每个输入对应的输出。这类算法的目标是找到数据中的一些有趣的结构、模式等，因此有时也被称之为知识发现。
例子：假如有一堆白菜和萝卜混在一起组成的蔬菜，需要设计一个机器对这堆蔬菜按白菜和萝卜分类，但是这个机器现在并不知道他们是什么样的，所以我们首先要拿一堆白菜和萝卜的照片，告诉机器他们分别长什么样；经过训练后，机器已经能够准确的对照片中的蔬菜类别做出判断，并且对他们的特征形成自己的定义；之后我们让机器对蔬菜进行分类，然后基本准确的按类别分开。这就是一个监督学习的过程。相反，没有拿白菜和萝卜的照片对机器进行系统训练，机器并不知道他们长什么样，而是直接对蔬菜分类，由机器自己总结出白菜和萝卜的特征。这就是一个无监督学习的过程。
总结：
1.监督学习需要对数据处理，但会更符合设计者的需求。
2.无监督学习更有创造性，得到意想不到的数据之间的映射关系，但也有可能向不好的方向发展。其实无监督学习更符合人工智能的设想要求。
回归问题（连续值的输出）：
1.给定有关房地产市场上房屋大小的数据，请尝试预测其价格。价格作为规模的函数是一个连续的输出。
2. 给定一个人的照片，我们必须根据给定的照片来预测他们的年龄
分类问题（离散值的输出）：
1. 对于患有肿瘤的患者，我们必须预测肿瘤是恶性还是良性的。