实验目的

  • 利用VirtualBox搭建Hadoop完全分布式集群(三个node, 一个master, 两个slave)
  • 使用搭建好的Hadoop集群完成之前Lab2中对数据的排序任务

    实验步骤

    1. 搭建Hadoop完全分布式平台

  • 搭建步骤详见PPT以及Hadoop安装的PDF文档

  • 启动Hadoop集群并验证启动成功

    2. 导入给定Jar包并上传Data.txt数据至HDFS

  • Data.txt数据与Lab2中给定Data.txt数据相同

  • Data.txt数据请务必上传至HDFS中/user/your_username/input目录下
  • hadoop_sort.jar文件请放在你的hadoop文件夹的根目录下

    3. 执行命令启动MapReduce任务

    1. $ ./bin/hadoop jar hadoop_sort.jar edu.fudan.mapreduce.Sort

    实验结果提交

    DDL: TBA
    请提交zip文件包含以下两个内容, 并以HadoopLab_YourName.zip命名

  • 实验报告PDF, 包括:

    • Hadoop平台搭建步骤, 遇到的问题, 原因以及错误排查(没遇到问题可以不写)
    • 必要的截图, 特别是Hadoop集群启动后每个节点执行jps命令打印结果以及MapReduce任务运行时开始以及结束截图(请记录时间以及你分配给每个虚拟机的内存信息)
  • 排完序之后的结果文件
    • 结果文件在MapReduce程序运行完成后将会输出至HDFS上的/user/your_username/output目录下

      评分量规

      | 评分项 | 分数 | | —- | —- | | 成功搭建Hadoop完全分布式平台 | 50 | | 成功执行MapReduce任务 | 20 | | 实验报告 | 20 | | 排序结果正确性 | 10 |

参考资料