大数据基础知识

数据分析是基于商业目的,有目的进行收集、整理、加工和分析数据,提炼有价值信息的过程

  1. 1. 需求分析明确目标
  2. 1. 数据收集加工处理(清洗、ETL操作)
  3. 1. 数据分析、展现
  4. 1. 分析报告、提炼价值

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、非易失的(Non-Volatile)、时变的(Time Variant)数据集合,用于支持管理决策

  1. 1. 为业务部门提供准确及时的报表
  2. 1. 为管理人员提供更强的分析能力
  3. 1. 为数据挖掘和知识发现奠定基础

大数据__(Big Data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  1. 1. 体量巨大:数据通常达到TBPB级别
  2. 1. 种类繁多:数据源多、格式多,同时包含音频、视频、文本图片等内容
  3. 1. 价值密度低:数据量大、价值数据相对较少
  4. 1. 处理速度快:在数据庞大的情况下,要求达到数据的实时性

大数据计算技术_

  1. 1. 离线:实时差
  2. 1. 在线:频繁交互、快速响应
  3. 1. 流式:交互触发、实时计算

不要盲目追求:体量、数量、技术、潮流

处理思路:减治、分治,将问题简化成能处理的问题、将问题拆分成多个可以简单求解的小问题 应用场景:数据仓库、智能算法、大数据应用、数据可视化