1.发展史:
2009-2012 1.x 没有hasp,存储的数据较少
2013-2017 2.x 加入yarn 进入了成熟阶段,被市面上普遍使用
2017-至今 3.x 对2.x进行了升华,加速计算 实时计算
核心组件:hdfs mapredduce yarn
2.分布
HDFS:分布式海量数据存储功能
yarn:提供资源调度和任务管理功能
MapReduce:分布式并行编程模型和计算框架
Hive:提供数据摘要和查询数据仓库
Streaming: 解决非 Java 开发人员使用 Hadoop 平台的语言问题
Hbase:基于列式的存储模型的分布式数据库
Zookeeper:分布式协同服务
3.Hadoop的结构
解决外网直接访问集群内的主机的三种方法:
1.通过代理访问:
通过对主机的ip或者主机名访问简单方便
2.ssh
简单但是不稳定
3.vpn
对网络配置要求高而且太过笨重
4.Ambair、CHD
是hadoop的web工具
优点:方便、简介
缺点:会是不是得有bug、不能运行等。这种情况下可尝试重启
5.SwitchyOmega
chrome浏览器需要安装SwitchyOmega插件
1)下载SwitchyOmega
2)在浏览器的设置—>插件改成开发者模式,直接把下载好的插件文件拖到界面
3)配置情景模式的ip地址、端口号、
4)aotu switch里配置网络正则
5)在ambair界面改扩展程序
