能够自主搭建本地hadoop平台,进行常用的配置,例如:
- 本地、本地伪分布式、分布式
- 用户权限
- 自动启动
- 版本升级
使用cloudera搭建平台
- 理解spark history server / gateway
能够开发hadoop程序,进行测试并提交运行:
- IDE中调用单个mapper/reducer程序
- 使用MiniDFSCluster测试
- 使用MiniYarnCluster测试
- 上传到服务端运行
- 检查默认的计数器
- 分析运行过程,每个class运行在哪个机器、运行了多久多少次
理解基本的MR框架的运行过程
- 程序包(Jar)的上传和执行
- 与Yarn通信的基本过程
- AM的功能及操作步骤
- 理解并对比Spark on Yarn任务的提交运行过程
使用Spark
- 提交任务
- 使用gateway提交任务
- 创建UDF
- 远程添加UDF