024. 通过WEKA 进行数据挖掘 - 图1

  • weka 无法直接读取Excel文件
    024. 通过WEKA 进行数据挖掘 - 图2

024. 通过WEKA 进行数据挖掘 - 图3

arff 文件格式要求

024. 通过WEKA 进行数据挖掘 - 图4

  • arff 文件内容
    024. 通过WEKA 进行数据挖掘 - 图5

weka 头信息内容

  • 首先是关系声明
    024. 通过WEKA 进行数据挖掘 - 图6
  • 接着是属性声明
    024. 通过WEKA 进行数据挖掘 - 图7
  • 最后是数据信息
    024. 通过WEKA 进行数据挖掘 - 图8

WEKA 属性类型与格式转换

024. 通过WEKA 进行数据挖掘 - 图9

数值型

024. 通过WEKA 进行数据挖掘 - 图10

标称型

024. 通过WEKA 进行数据挖掘 - 图11

字符串型

024. 通过WEKA 进行数据挖掘 - 图12

时间日期型

024. 通过WEKA 进行数据挖掘 - 图13

通过csv 转换xls 文件

024. 通过WEKA 进行数据挖掘 - 图14
024. 通过WEKA 进行数据挖掘 - 图15

WEKA 界面介绍

数据预处理及挖掘任务

  • 打开explorer 下界面
    024. 通过WEKA 进行数据挖掘 - 图16
  • 我们可以直接食用WEKA 自带的范例文件。
  • 根据功能不同,WEKA 界面可分为8个区域。
    024. 通过WEKA 进行数据挖掘 - 图17

区域1

切换不同的挖掘任务面板

区域2

常用功能按钮

区域3

数据类型筛选与属性类型转换(预处理的主要实现区域)

区域4

展示数据集的基本信息。

区域5

罗列所有属性,可以进行添加和删除的操作。

区域6

用于显示区域5 选择的属性的详细信息。

区域7

显示区域5 中属性信息的基本计数信息,并可视化展示。
024. 通过WEKA 进行数据挖掘 - 图18
最后一个属性默认为目标属性。
024. 通过WEKA 进行数据挖掘 - 图19

  • 可以点击visualize all 进行可视化处理。
    024. 通过WEKA 进行数据挖掘 - 图20

区域8

状态栏,可以查看操作日志以及数据挖掘任务的状态。

通过filter 进行数据预处理

  • 将数值型属性转换为标称型属性
    024. 通过WEKA 进行数据挖掘 - 图21
    024. 通过WEKA 进行数据挖掘 - 图22
  • bins 表示新属性的标称个数。
  • apply 进行处理
    024. 通过WEKA 进行数据挖掘 - 图23
  • 两个不同的数值-> 标称型函数的差异
    024. 通过WEKA 进行数据挖掘 - 图24
  • 添加新的属性
    024. 通过WEKA 进行数据挖掘 - 图25
    024. 通过WEKA 进行数据挖掘 - 图26

执行挖掘任务

  • 分类和回归数据挖掘都在classify中
    024. 通过WEKA 进行数据挖掘 - 图27
  • 分类和回归都是通过输入数据训练以预测输出数据
    024. 通过WEKA 进行数据挖掘 - 图28
  • WEKA 自带的算法
    024. 通过WEKA 进行数据挖掘 - 图29

开始操作

  • 首先在范例文件中打开 diabetes.arff 文件
  • 接着选定分类算法模型
    024. 通过WEKA 进行数据挖掘 - 图30
  • 确定模型选项
    024. 通过WEKA 进行数据挖掘 - 图31
  • 结果输出
    024. 通过WEKA 进行数据挖掘 - 图32
  • 可以右键输出结果,选择可视化决策树
    024. 通过WEKA 进行数据挖掘 - 图33
  • 测试模型可信度
    结果可以看到总结
    024. 通过WEKA 进行数据挖掘 - 图34
    024. 通过WEKA 进行数据挖掘 - 图35
  • 解读混合矩阵
    024. 通过WEKA 进行数据挖掘 - 图36
    024. 通过WEKA 进行数据挖掘 - 图37