1、数据挖掘的基本任务

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

2、数据挖掘建模过程

1.定义挖掘目标
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。

2.数据取样
衡量取样数据质量的标准如下。
1) 资料完整无缺,各类指标项齐全。
2) 数据准确无误,反映的都是正常(而不是异常)状态下的水平。

数据抽样的方式:
1)随机抽样
2)等距抽样
3)分层抽样
4)从起始顺序抽样
5)分类抽样

3.数据探索
数据探索主要包括:异常值分析、缺失值分析、相关分 析和周期性分析等。

4.数据预处理
数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、 坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

5.挖掘建模
接下来要考虑的问题是:本次建模属于数据挖掘应用中的 哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建。

6.模型评价
模型评价的目的之一就是从这些模 型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。

3、常用的数据挖掘建模工具