一、基本介绍
hadoop是apache旗下的一套开源软件平台,利用服务器集群,根据用户自定义的业务逻辑,对海量数据进行分布式数据处理,通常所说的hadoop是指hadoop生态圈
二、hadoop核心组件
- hdfs - 分布式文件系统
- yarm - 运算资源调度系统
-
三、hadoop产生背景
2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期四、hadoop在大数据、云计算中的位置和关系
云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物,借助iaas、paas、saas等业务模式,把强大的计算能力提供给终端用户
iaas (infrastruture as a service)- 基础设施及服务
几年前如果你想运行一些企业应用,你需要去购买服务器、硬盘、网络硬件、路由器,装网,但是现在不需 要了,只需购买阿里云的服务器即可 - 侧重于硬件
- pass (platform as a service)- 平台即服务
pass公司在网上提供各种开发和分发应用的解决方案,,比如虚拟服务器和操作系统,中间件、基础服务平 台,如Google App Engine。
- saas (software as a service )- 软件即服务
软件,这一层是和你的生活每天接触的一层,大多是通过网页浏览器来接入。任何一个远程服务器上的应用 都可以通过网络来运行,就是SaaS了

现阶段,云计算的两大底层支撑技术为虚拟化和大数据技术,hadoop只是pass层的解决方案之一,并不等同于paas,更不等同于云计算本身。
