大纲

制定需求-搭建环境-造测试数据-开发-测试-调优

  1. 制定需求 -已完成
    完成时间:20210924
    2. 学员自行搭建运行环境
    完成时间:大家十一前后先把环境搭起来,有解决不了的大群里我帮大家解决。
    十一节后的第二个星期六。20211009 晚上开小会讨论环境搭建情况、成员分享经验。
    3.群主准备测试数据
    完成时间:十一前
    4. 学员各自完成需求
    完成时间:十一节后的第二个星期六。20211016 晚上开小会讨论、代码 review。
    5. 学员尝试改用 flink sql 实现
    完成时间:十一节后的第三个星期六。20211023 周六晚上开小会讨论、代码 review。
    6. 进一步学习-这个不做要求
    增大数据量测试性能。
    可以尝试 sink 到 hive、doris 等。

1. 制定需求 -已完成

完成时间:20210924

有14 张表(11张主数据,3张业务表),通过 dts(类似于解析binlog) 打到了 kafka 的一个 topic下了。
需要实时同步到 clickhouse/doris

实现1:14 张表直抽不做join写入 ck,会有更新删除操作。
实现2:11张主数据,冗余进3张业务表,实际上入ck只有三张宽表。这里涉及到join。

2. 学员自行搭建运行环境

完成时间:大家十一前后先把环境搭起来,有解决不了的大群里我帮大家解决。
十一节后的第二个星期六。20211009 晚上开小会讨论环境搭建情况、成员分享经验。
这一步是基础但不是本次学习的重点,大家结合自己情况选择集群类型,尽快搭建起来!

  1. 最好安装集群后期可以调试性能。
  2. 配置不行就单机版的。
  3. 如果单机版的都装不了的话,就只能用IDEA开发环境了。至少得装 kafka 和 clickhouse 吧。我们将测试数据写入kafka,本地idea直接读取kafka写入ck。(但这个只能熟悉flink开发,很难测试性能)

必装组件:
jdk 1.8
hadoop 2.7.2 (这个好像也可以没有)
kafka 2.11
flink 1.13.2(这个好像也可以没有)
clickhouse 这个通过 yum 安装的

选装组件:
zK 3.4
hbase 1.4.9
mysql 这个通过 yum 安装的
hive

例 昵称-可用资源8c16g-集群模式/单机模式-是否能完成

3. 群主准备测试数据

完成时间:20211009

4. 学员各自完成需求

完成时间:十一节后的第二个星期六。20211016 晚上开小会讨论、代码 review。

5. 学员尝试改用 flink sql 实现

完成时间:十一节后的第三个星期六。20211023 周六晚上开小会讨论、代码 review。

6. 进一步学习-这个不做要求

  1. 增大数据量测试性能。
  2. 可以尝试 sink 到 hive、doris 等。

草拟了一个规则,大家看一下:
1.目的:通过一次实战让大家快速入门。
2.学习方式:布置作业-收作业-辅助解决问题答疑
3.具体的学习方法等这两天完善后发出来