1.Hadoop介绍
狭义上Hadoop指的是Apache基金会的开源软件,广义上指的是围绕Hadoop打造的大数据生态圈
用Java语言实现,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
核心组件:
1.HDFS(分布式文件存储系统):解决海量数据存储
2.YARN(集群资源管理和任务调度框架):解决资源任务调度
3.MapReduce(分布式计算框架):解决海量数据计算
2.Hadoop特性
优点:
1.扩容能力强:
Hadoop不是单机软件,而是一个多台机器组成的分布式软件(官方说少则几台,多则几百上千台,并且这种调整非常灵活,动态,不需要停机),对于用户来说非常方便,在业务低峰期数据量小的时候可以用小规模的集群,当数据量大的时候,扩容成大规模的集群。
2.Hadoop成本低:
Hadoop集群允许部署廉价的机器来组成机器处理大数据,以至于成本比较低,看重的是集群整体能力。
3.Hadoop效率高:
效率高也是源于分布式思想,当我们的数据分别存储在不同的机器上,Hadoop可以在节点之间动态并行的处理数据。
4.可靠性:
Hadoop在设计之出就要保证可靠,保证数据存储安全,计算稳定