数据挖掘的定义

技术角度的定义

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
zxa

商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。 简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。

实施数据挖掘的目的

不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。

数据挖掘的特点

数据挖掘在一定意义上是发现驱动的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

国外数据挖掘的研究现状

IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。半月刊Knowledge Discovery Nuggets最为权威(http://www.kdnuggets.com/ subscribe.html)。在网上还有许多自由论坛,如DM Email Club等。

数据挖掘模型

CRISP-DM模型中,数据挖掘包括六个步骤:

1.业务理解(Business Understanding)阶段 :

确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;
项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;
确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;
提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。

2.数据理解(Data Understanding)阶段

收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;
描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;
探索数据:对数据做简单的统计分析,例如关键属性的分布等;
检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。

3.数据准备(Data Preparation)阶段

数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;
数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等;
数据创建:在原有数据的基础上是生成新的属性或记录;

4.建立模型(Modeling)阶段

选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;
测试方案设计:设计某种测试模型的质量和有效性的机制;
模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;
模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。

5.模型评估(Evaluation)阶段

结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;
过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;
确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。

6.部署(Deployment)阶段

部署计划:对在业务运作中部署模型作出计划;
监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;
作出最终报告:项目总结,项目经验和项目结果;
项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。

实现流程

数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类:
1)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。
2)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。
3)数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。

数据挖掘的应用

数据挖掘技术在市场分析、业务管理、决策支持等方面有广泛的应用,是实现CRM和BI的重要技术手段之一。
具体涉及数据挖掘的商业问题有数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失分析(Churn Analysis)、客户信用评分(Credit Scoring)、欺诈甄别(Fraud Detection)等

未来趋势

1)发现语言的形式化描述
即研究专门用于知识发现的数据挖掘语言,寻求类似于数据库中SQL语言一样的数据挖掘语言,使挖掘过程走向形式化和标准化。
2)寻求数据挖掘过程中的可视化方法
使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。
3)研究在网络环境下的数据挖掘技术
特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现Web挖掘。
4)加强对各种非结构化数据的挖掘
如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的挖掘。
5) 知识的维护更新
数据挖掘的结果——知识是具有时效性的,需要研究知识的维护更新技术,如知识的增量更新、模型的进化等。