分类的概念

在已知研究对象可分为若干类的情况下,确定新的对象属于哪一类。
分类的数据分析任务中,需要构建一个模型或者分类器(classifer)来预测类标号。
数据分类是一个两阶段的过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)。

  • 学习阶段
    分类算法通过从训练集中学习来构造分类器。训练集由数据库元组和它们相关联的类标号组成。
    元组是用n维属性向量表示,,每个元组都属于一个预先定义的类,即确定一个类标号属性。这些元组也叫做样本、实例、数据点或对象。
    提供了类标号的的学习也叫监督学习。(分类是监督学习,聚类是无监督学习
    分类的任务就是学习一个从元组到类别的映射 ,给定一组数据,输出类标号。
  • 分类阶段
    用第一阶段的模型进行分类,首先要在验证集上预测分类器的准确率,如果认为分类器的准确率是可以接受的,那么就可以用它对类标号未知的数据元组进行分类。

    决策树算法

    贪心算法

  • 设Dt是与节点t相关联的训练记录集,yi是类标号

  • 如果Dt中所有记录都属于同一个类yt,则t是叶节点,用yt标记。
  • 如果Dt中包含属于多个类的记录,则选择一个属性作为测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女节点中。对每个子女节点,递归调用该算法。

    关键问题

  • 如何分裂训练过程(属性选择度量)

  • 如何停止分裂过程(剪枝)

基尼指数

连续属性的基尼指数

  • 考虑二元划分
  • 按照年收入将训练记录排序
  • 从两个相邻的排过序的属性值中选择中间值作为候选划分点
  • 计算每个候选划分点的Gini值,从中选择具有最小值的候选划分点

    image.png
    j是该事务集中j的数量,t是该事务集的总数

    信息增益

    Parent的熵-划分后总的子熵
    image.png

    增益率

    image.png

    分类误差

    image.png

二元属性
标称属性
序数属性
连续属性
划分度量的方法
不纯性度量

二路划分
多路划分

最佳划分标准

父节点(划分前)的不纯程度P和子女节点(划分后)的不纯程度M(加权平均),差距越大,属性测试条件的效果越好!
Gain=P-M

造成模型过分拟合的原因

  • 噪声导致的过分拟合
  • 缺乏代表性样本导致的过分拟合

训练误差:在训练集中表现出的误差
测试误差:在测试集中表现出的误差

泛化误差估计

  • 使用再代入估计
  • 结合模型复杂度
  • 使用验证集

如何计算各种误差估计?

如何处理过分拟合?

模型评价

截屏2021-07-19 上午12.57.04.png
精确率和召回率的适应情况