1.机器学习的定义

机器学习领域的创始人Arthur Samuel(亚瑟·塞缪尔)早在1959年就给机器学习(Machine Learning,ML)下了定义:机器学习是这样的一个研究领域,它能让计算机不依赖确定的编码指令来自主的学习工作。
1998年,Tom Mitchell对机器学习的定义做了更好的定义。引入了三个概念:经验Experience(E)、任务Task(T)、任务完成效果的衡量指标Performance measure(P)。有了这三个概念,机器学习的定义可以更加严谨:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。

2.机器学习基本概念

举个栗子
假定收集了一批西瓜数据集
(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=乌黑,根蒂=蜷缩,敲声=沉闷),(色泽=浅白,根蒂=硬挺,敲声=清脆)……
这组记录的集合称为一个数据集(dataset)
每一条记录是对一个事件或者事物的描述,称为示例(instance)或样本(sample)
反应事件或事物的表现或者性质的事项,称为属性(attribute)或特征(feature),如上述栗子中的“色泽”,“根蒂”,“敲声”
属性或者特征的取值称为属性值特征值,如上述例子中的“青绿”,“蜷缩”等
属性构成的空间称为属性空间或样本空间(sample space)