搭建教程地址:http://www.amoscloud.com/?p=1175

    相关视频直达,在进入登录页之前,完全没必要看视频。进入之后,我选择跳过看了些视频,因为网页版的内容和视频的内容有些区别,有些坑。

    虽然现在收费了,但是只要有依赖这些能下载好,目前还是能用的。

    下图是组件版本介绍及跟cdh5.x的对比,6.3.2的组件版本跟6.1.1的组件版本基本没啥区别。(目前只注意到hadoop版本和kudu版本是一样的,其他没一一观察)
    image-20210318100441002.png

    照着教程来遇到的坑或者没注意到的地方

    1)在 vim /etc/yum.repos.d/cloudera-manager.repo 时,内容为:

    1. [cloudera-manager]
    2. name=Cloudera Manager 6.3.1
    3. baseurl=http://cdh00/cloudera-repos/cm6
    4. gpgkey=https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPM-GPG-KEY-cloudera
    5. gpgcheck=1
    6. enabled=1
    7. autorefresh=0
    8. type=rpm-md

    需要自己将gpgcheck=1 改成gpgcheck=0 跳过验证。

    2)大坑!在首次运行:systemctl start cloudera-scm-server.service 之后,使用命令:systemctl status cloudera-scm-server.service 查看服务启动状态,在几分钟或者十分钟内看到的提示都会是提示xxx数据库名.version表不存在**。这个时候我当时就觉得会不会是哪里配置错了。非常纠结,可是检查又检查不出来哪里有问题。明明是cdh连接数据库,我手动把数据库创建,然后输入mysql地址,保证地址和账号密码正确就行了。当时死活检查不出来,然后便运行重启,可是提示就还是这个,再过会就直接报错状态为not running啥的了。后面

    经过查询得知最合适的监控启动进程日志的命令为

    tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

    然后才知道hadoop其实一直在跑,当时是在把一些列的表都重新update。整个过程非常久,首次运行大概20到30分钟才能跑起来

    (可能硬件问题,总之我的虚拟机是这样)

    3)往后关于搭建这块没啥坑了。一直在页面启动完成。剩下的就直接登录,配置。只是首次搭建的话,不能只看这个网址的文档,还是得看看视频,就是登录之后怎么配置的视频。

    下面是关于启动容易碰上的问题

    4)HDFS忘记格式化,而且真正格式化的方式是在namenode实例下的位置,当时不知道这一回事,还以为在任意节点的命令行操作格式化命令(不过这个操作好像也可以吧,但是还是推荐在图片的地方格式化)
    image-20210318101918665.png

    5)namenode启动还有一个权限问题,默认路径 /dfs/nn 会提示没有权限。解决:当时把没有权限这句话复制粘贴百度就行了,命令忘了。大概就是给予权限就ok

    6)yarn的jobhistory服务器运行失败。解决:sudo -u hdfs hdfs dfs -chmod -R 777 /

    7)经常会遇到某某文件夹没有权限的问题,HDFS中,一般是hdfs用户(有所有文件操作权限)或者直接在hdfs页面上看到某个路径下的owner的用户,只有这两个用户能有该文件夹下的所有权限。所以这个时候遇到没有权限的问题。就统一修改权限

    1. sudo -u hdfs hdfs dfs -chmod -R 777 /xx路径
    2. 第一个hdfs是指使用hdfs用户操作,后面才是真正的修改权限的命令

    8)hive启动时报错:SQLSyntaxErrorException: Table ‘hivecdh.version’ doesn’t exist,然后去该数据库一看,空空如也,只有一张表。
    image-20210318112159358.png

    解决办法:在cdh主节点找到hive的sql脚本在数据库中运行,运行完sql后再启动,不过这个时候会遇到下一个问题,那就是依旧报错说找不到版本号。其实还可以这么解决,只在cdh页面上操作,第一步,第二步,接着就能成功启动了。

    image-20210318113608378.png

    9)Oozie的安装出错的原因也一样。照样是链接的mysql缺少表,当时以为输入对mysql地址,然后自己新建库,在安装cdh集群的时候最后一步会自动帮我们创建好关联的表。但实际上都是得自己启动的时候先创建再升级架构。

    10)Hue的坑,没解决,连接到hive和impala和Oozie没啥坑。它不是号称也能连接zk的吗,但是却没看到任何关于zk的连接。网上找到的做法清一色是,官网上的文档版本又太新了。而且关于连接zk的介绍又少之又少!
    image-20210323161133838.png

    可是我查看自己cdh集群下的配置文件,配置得正确的呀

    image-20210323161354011.png

    image-20210323161412869.png
    /
    对了。有了hue,使用oozie做任务调度非常方便,妈妈再也不用担心我写xml文件头大了

    ps:写得不够细,其实可以参考一下B站上某谷的视频。直接手把手教~