实战入门 - Flink 入门实践学习小组 - 《大数据》

大纲

制定需求-搭建环境-造测试数据-开发-测试-调优

完成时间：20210924

有14 张表（11张主数据，3张业务表），通过 dts(类似于解析binlog) 打到了 kafka 的一个 topic下了。
需要实时同步到 clickhouse/doris

实现1：14 张表直抽不做join写入 ck，会有更新删除操作。
实现2：11张主数据，冗余进3张业务表，实际上入ck只有三张宽表。这里涉及到join。

完成时间：大家十一前后先把环境搭起来，有解决不了的大群里我帮大家解决。
十一节后的第二个星期六。20211009 晚上开小会讨论环境搭建情况、成员分享经验。
这一步是基础但不是本次学习的重点，大家结合自己情况选择集群类型，尽快搭建起来！

最好安装集群后期可以调试性能。
配置不行就单机版的。
如果单机版的都装不了的话，就只能用IDEA开发环境了。至少得装 kafka 和 clickhouse 吧。我们将测试数据写入kafka，本地idea直接读取kafka写入ck。（但这个只能熟悉flink开发，很难测试性能）

必装组件：
jdk 1.8
hadoop 2.7.2 （这个好像也可以没有）
kafka 2.11
flink 1.13.2（这个好像也可以没有）
clickhouse 这个通过 yum 安装的

选装组件：
zK 3.4
hbase 1.4.9
mysql 这个通过 yum 安装的
hive

例昵称-可用资源8c16g-集群模式/单机模式-是否能完成

完成时间：20211009

完成时间：十一节后的第二个星期六。20211016 晚上开小会讨论、代码 review。

完成时间：十一节后的第三个星期六。20211023 周六晚上开小会讨论、代码 review。

草拟了一个规则，大家看一下：
1.目的：通过一次实战让大家快速入门。
2.学习方式：布置作业-收作业-辅助解决问题答疑
3.具体的学习方法等这两天完善后发出来