image.png
这么多的数据人工短时间内进行分析处理是相当麻烦的,注意一下PB ,EB , ZB之间的区别,其实在到ZB级别的数据就是一个国家的一年的数据。

1 hadoop的简介

image.png
组成部分
image.png

Hadoop的生态系统
image.png

首先我们来讲解一下这个Hadoop的框架里面每一部分的作用。

  • flume和是sqoop是数据的采集工具,可以采集一些用户的日志文件,sqoop可以进行数据的传输(可以将关系型数据库里面的数据进行传输比如mysql)。总之flume和sqoop这两个工具可以将其他平台的数据采集到我们的大数据平台。
  • Flume和sqoop两个工具将数据采集到大数据平台,这些采集来的数据可以放在HDFS分布式文件系统里面,也可以放在Hbase这个分布式数据库里面。
  • 大数据平台里面有数据以后就可以使用YARN这个资源管理器对大数据品台里面的数据进行处理,
  • 在处理的时候可以使用MapReduce , Spark,Flink这些框架进行处理
  • 处理之后的数据我们可以把他放在 Hive,Mahout里面
  • 最后这个zookeeper就是我们在java里面学到的微服务的注册中心。

    2 Hadoop的集群安装

2.1 集群的规划

这里的集群安装就是,安装在linux环境下面,我们就要在本地的虚拟机VMwear上面安装虚拟的linux操作系统。
因为是集群安装我们就要在本地虚拟出来三台linux主机,具体的命名方式如下,而且后期我们使用的软件都要装在linux下面好像
image.png

这个时候首先要做的就是在本地的vmware 里面 安装 3 台linux主机了 ,linux的系统使用的是centos7

我们可以去这个网站下载阿里的 centos镜像文件,就是iso镜像文件。
地址是:https://mirrors.aliyun.com ,点击网站里面的镜像,输入你想下载的操作系统以及操作系统的版本就可以了。 一般我们下载的都是DVD的格式,在VMWare里面选择本地安装。

安装的时候可以参考这个视频vmware安装centos7,需要注意的上

2.2 先在VMware里面安装linux

现在我们要先安装三台 linux的虚拟机 系统为centos7
这里给出一个centos 6 的安装文档,我们可以根据这个文档来安装centos7 ,有时候安装的时候可能会报错,有可能是因为我们的电脑没有打开虚拟化,可以参考第二个文档开启虚拟化。
CentOS6详细安装文档.doc
bios开启虚拟化技术.docx

在VMWare里面安装linux系统的步骤我就专门放在一个文档里面将了,安装的时候还是要有一些注意事项的。

2.3 安装jdk

image.png
可以看到这个就是进到linux主机里面了,一般本地安装的linux虚拟机里面默认的都是有一个开放的jdk的(阿里云服务器里面一开始是没有的),我们要先删除这个开放的jdk
注意hadoop 2.7.6 版本需要的jdk版本是 1.8 及以上。

我们进到qianfeng01这个主机里面,先在root目录下面创建(命令 :mkdir softwares)一个 文件夹叫 softwares 将用到的软件安装包 全部放到这个文件夹里面
image.png
可以看到在softwares这个文件夹下面有8个安装包。我们可以使用Filezilla这个软件将安装包上传到文件夹

我们进到/root/softwares 这个文件夹下面。开始安装JDK安装将JDK安装到 /usr/local这个目录下面

  1. tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local

我们到/usr/local下面看一下,可以看大jdk已经在里面了。
image.png

接着我们吧 jdk1.8.0_221 这个文件夹重命名一下 变为jdk1.8以后我们在使用的时候就不用在写名字了

  1. mv jdk1.8.0_221/ jdk1.8

image.png

安装好了以后我们要开始配置环境变量了。
linux的环境变量是写在/etc/profile这个文件里面的,所以我们就要使用vi或者vim对这个文件进行编辑了。
这里稍微讲解一下vi和vim编辑器的区别,使用vim编辑器编辑文本文件的时候,注释和正文的颜色是不一样的

这里还是使用vi编辑器吧
命令 vi /etc/profile j进到文件里面,点击 i 开始编辑
在文件的末尾加入 , # java 表示的是注释 ,
export JAVA_HOME = /usr/local/jdk1.8 表示的是 我们的jdk的安装位置
export PATH=$PATH:$JAVA_HOME/bin 为环境变量赋值 , 先拿到之前的环境变量 $PATH
然后把拿到自己的JAVA_HOME的值 的bin目录, 然后用:分隔开这样就好了

  1. #java
  2. export JAVA_HOME=/usr/local/jdk1.8
  3. export PATH=$PATH:$JAVA_HOME/bin

最后我们重新加载一下 配置文件

  1. source /etc/profile

最后输入java 验证一下就可以了

2.4 安装JDK的时候遇到的问题

在编辑 etc/profile文件的时候,我们使用vi编辑器,如果中途以外退出,再次进行编辑的话是编辑不了的,因为以外退出产生了一个 .xxxx.swap的 临时文件。 使用 ls -all 查看所有的文件,删除这个临时文件以后,我们在使用vi命令就可以接着编辑了。