Big Data - 大数据框架- 简介 - 《Big Data》

大数据架构
Hadoop

[特征]
    容量 (Volume)  : 数据的大小决定所考虑的数据的价值和潜在的信息
    种类 (Variety) : 数据类型的多样性
    速度 (Velocity) : 指获得数据的速度
    可变性 (Variability) : 妨碍了处理和有效地管理数据的过程
    真实性 (Veracity)  : 数据的质量
    复杂性 (Complexity): 数据量巨大，来源多渠道 
    价值 (value) : 合理运用大数据，以低成本创造高价值。

Big Data，大数据，IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。

大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。

大数据框架- 简介 - 图1

大数据与云计算的关系

大数据架构

[解决方案]

    # Hadoop大数据处理的开源解决方案
    # 华为大数据架构 <MRS , MapReduce Service>
    : https://support.huaweicloud.com/mrs/index.html

    : 基础设施
  // 虚拟私有云 VPC
  // 云硬盘 EVS
  // 弹性云服务器 ECS

  : 数据集成层
  // Flume  数据采集
  // Loader 关系型数据导入
  // Kafka  高可靠消息队列

  : 数据存储
  // HDFS  分布式文件系统
  // OBS   对象存储服务
  // HBase 支持带索引的数据存储，适合高性能基于索引查询的场景

  : 数据计算
  // MapReduce（批处理）
  // Tez（DAG模型）
  // Spark（内存计算）
  // SparkStreaming（微批流计算）
  // Storm（流计算）
  // Flink（流计算）

  : 数据分析
    // Hive（数据仓库）
  // SparkSQL以及Presto交互式查询引擎

  : 数据呈现调度
  // 数据湖工厂（DLF）

  : 集群管理
  //

  // Hadoop、Spark、HBase、Kafka、Storm、SparkSQL、Hive、Hue、CarbonData、Flume、Loader
  、Presto、OpenTSDB、Flink、Impala、Kudu、Alluxio、Ranger、

大数据框架- 简介 - 图2

Hadoop

大数据框架- 简介 - 图3

Hadoop是一个开源分布式计算平台，可以充分利用集群的计算和存储能力，完成海量数据的处理。企业自行部署Hadoop系统有成本高，周期长，难运维和不灵活等问题。