能够自主搭建本地hadoop平台,进行常用的配置,例如:

    1. 本地、本地伪分布式、分布式
    2. 用户权限
    3. 自动启动
    4. 版本升级

    使用cloudera搭建平台

    1. 理解spark history server / gateway

    能够开发hadoop程序,进行测试并提交运行:

    1. IDE中调用单个mapper/reducer程序
    2. 使用MiniDFSCluster测试
    3. 使用MiniYarnCluster测试
    4. 上传到服务端运行
    5. 检查默认的计数器
    6. 分析运行过程,每个class运行在哪个机器、运行了多久多少次

    理解基本的MR框架的运行过程

    1. 程序包(Jar)的上传和执行
    2. 与Yarn通信的基本过程
    3. AM的功能及操作步骤
    4. 理解并对比Spark on Yarn任务的提交运行过程

    使用Spark

    1. 提交任务
    2. 使用gateway提交任务
    3. 创建UDF
    4. 远程添加UDF