分类分析

在已知研究对象可分为若干类的情况下，确定新的对象属于哪一类。
分类的数据分析任务中，需要构建一个模型或者分类器（classifer）来预测类标号。
数据分类是一个两阶段的过程，包括学习阶段（构建分类模型）和分类阶段（使用模型预测给定数据的类标号）。

学习阶段
分类算法通过从训练集中学习来构造分类器。训练集由数据库元组和它们相关联的类标号组成。
元组是用n维属性向量表示，，每个元组都属于一个预先定义的类，即确定一个类标号属性。这些元组也叫做样本、实例、数据点或对象。
提供了类标号的的学习也叫监督学习。（分类是监督学习，聚类是无监督学习）
分类的任务就是学习一个从元组到类别的映射 ,给定一组数据,输出类标号。
分类阶段
用第一阶段的模型进行分类，首先要在验证集上预测分类器的准确率，如果认为分类器的准确率是可以接受的，那么就可以用它对类标号未知的数据元组进行分类。

决策树算法

贪心算法
设Dt是与节点t相关联的训练记录集，yi是类标号
如果Dt中所有记录都属于同一个类yt，则t是叶节点，用yt标记。
如果Dt中包含属于多个类的记录，则选择一个属性作为测试条件，将记录划分成较小的子集。对于测试条件的每个输出，创建一个子女结点，并根据测试结果将Dt中的记录分布到子女节点中。对每个子女节点，递归调用该算法。

关键问题
如何分裂训练过程（属性选择度量）
如何停止分裂过程（剪枝）