大数据 - 大数据技术 - 《Java后端开发》

大数据是海量数据或大量数据，规模大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策
海量数据从原始数据源到产生价值，期间会经过存储、清洗、挖掘、分析等多个环节
分布式系统基础架构Hadoop；HDFS为海量的数据提供了存储；MapReduce则为海量的数据提供了并行计算，从而大大提高了计算效率
Hadoop在企业中的应用架构

HDFS（分布式文件系统）

将文件切分成等大的数据块，存储到多台机器上
将数据切分、容错、负载均衡等功能透明化
可将HDFS看成一个容量巨大、具有高容错性的磁盘

YARN（资源管理系统）

负责集群的资源管理和调度
使得多种计算框架可以运行在一个集群中
良好的扩展性、高可用性
对多种类型的应用程序进行统一管理和调度
自带了多种多用户调度器，适合共享集群环境

MapReduce（分布式计算框架）

适合PB级以上海量数据的离线处理

Hive（基于MR的数据仓库）

使用HQL（类SQL）进行离线数据处理

适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集，Pig能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说，当你使用Pig进行处理时，Pig本身会在后台生成一系列的MapReduce操作来执行任务，Pig是一种数据流语言和运行环境，用于检索非常大的数据集。

Spark内存计算：

基于内存计算的大数据并行计算框架，基于DAG的任务调度执行机制

Shark开源的分布式和容错内存分析系统：

实时的查询分析数据

Sqoop数据库ELT工具：

用于在Hadoop（Hive）和关系型数据库之间传输数据的工具

Flume日志收集：

分布式的海量日志采集、聚合和传输的系统，支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力

Hadoop生态系统

各个节点的作用

海量其规模巨大到无法通过目前主
流的计算机系统在合理时间内获取、存储、管理、处