我之前已经在云主机里面搭建好了 Hadoop 环境,我只有一台云服务器,想学习 Hadoop 怎么办? 👈

最近有一些实时计算的需求,需要学一下 Flink,所有需要一个 Flink 环境,做下记录。

下载

  • Flink 1.9 的安装包

Apache Flink® 1.9.1 是我们最新的稳定版本。 如果你计划将 Apache Flink 与 Apache Hadoop 一起使用(在 YARN 上运行 Flink ,连接到 HDFS ,连接到 HBase ,或使用一些基于 Hadoop 文件系统的 connector ),请选择包含匹配的 Hadoop 版本的下载包,且另外下載对应版本的 Hadoop 库,并且把下载后的 Hadoop 库放置 到 Flink 安装目录下的 lib 目录 包并设置HADOOP_CLASSPATH 环境变量。 — 官方文档

image.png

这里需要注意的是,官方并没有出针对 hadoop3.x 组件,所以只能下载别的版本(2.6.5)了。

blink内部版本使用hadoop 3.0版本的client,从而能使用到一些yarn 3.x才有功能(比如placement constraint)。但如果使用hadoop 3.0特有的api后,会导致flink在低版本的hadoop集群中不能正常运行。 目前大部分yarn用户还是以hadoop 2.6为主,所以目前blink开源版对于hadoop的依赖是2.6及以上版本的。

如果flink用户不需要hadoop 3.0特有的api的话,编译flink时用hadoop 2.6版本即可。

我们已经测试过基于hadoop 2.6.5的flink能够正常运行在hadoop 3.x的集群中。

当然,我也可以不依赖 HDFS ,单独装一个 Flink。为了简化安装,我选择了直接安装 Flink 独立包。

下载界面:https://www.apache.org/dyn/closer.lua/flink/flink-1.9.1/flink-1.9.1-bin-scala_2.11.tgz
选择最近的镜像源(ps:我选的是清华的镜像源)

下载中…耐心等待,我网络不好,200多M的安装包下这么久….