分布式数据库
分布式数据库的定义
分布式数据库是一组结构化的数据集合,它们在逻辑上属于同一系统,而在物理上分布在计算机网络的不同结点上
分布式数据库的特点
数据仓库与数据挖掘
数据仓库的定义
数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,通常用于辅助决策支持
数据仓库的体系结构
对多个异构数据源的有效集成,集成后按照主题进行重组,包含历史数据;存放在数据仓库中的数据通常不再修改,用于做进一步的分析型数据处理
数据挖掘的定义
从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,又被称为数据库中的知识发现(Knowledge Discovery in Database,KDD)
数据挖掘的方法
直接数据挖掘:利用可用的数据建立一个模型,这个模型对剩余的数据,比如对一个特定的变量进行描述,直接数据挖掘包括分类(Classification)、估值(Estimation)和预言(Prediction)等分析方法 间接数据挖掘:在所有的变量中建立起某种关系,如相关性分组或关联规则(Affinity Grouping or Association Rules)、聚集(Clustering)、描述和可视化(Description and Visualization)及复杂数据类型挖掘(文本、网页、图形图像、音视频和空间数据等)
大数据技术
大数据的概念
人们普遍采用大数据的4V特性来描述大数据,即“数据量大(Volume)”“数据类型繁多(Variety)”“数据处理速度快(Velocity)”和“数据价值密度低(Value)”。
大数据的关键技术
大数据所涉及的关键技术主要包括数据的采集和迁移、数据的存储和管理、数据的处理和分析、数据安全和隐私保护
大数据技术的应用场景
大数据技术的应用已经非常普遍,涉及的领域包括传统零售业、金融业、医疗业和政府机构等