大纲
制定需求-搭建环境-造测试数据-开发-测试-调优
- 制定需求 -已完成
完成时间:20210924
2. 学员自行搭建运行环境
完成时间:大家十一前后先把环境搭起来,有解决不了的大群里我帮大家解决。
十一节后的第二个星期六。20211009 晚上开小会讨论环境搭建情况、成员分享经验。
3.群主准备测试数据
完成时间:十一前
4. 学员各自完成需求
完成时间:十一节后的第二个星期六。20211016 晚上开小会讨论、代码 review。
5. 学员尝试改用 flink sql 实现
完成时间:十一节后的第三个星期六。20211023 周六晚上开小会讨论、代码 review。
6. 进一步学习-这个不做要求
增大数据量测试性能。
可以尝试 sink 到 hive、doris 等。
1. 制定需求 -已完成
完成时间:20210924
有14 张表(11张主数据,3张业务表),通过 dts(类似于解析binlog) 打到了 kafka 的一个 topic下了。
需要实时同步到 clickhouse/doris
实现1:14 张表直抽不做join写入 ck,会有更新删除操作。
实现2:11张主数据,冗余进3张业务表,实际上入ck只有三张宽表。这里涉及到join。
2. 学员自行搭建运行环境
完成时间:大家十一前后先把环境搭起来,有解决不了的大群里我帮大家解决。
十一节后的第二个星期六。20211009 晚上开小会讨论环境搭建情况、成员分享经验。
这一步是基础但不是本次学习的重点,大家结合自己情况选择集群类型,尽快搭建起来!
- 最好安装集群后期可以调试性能。
- 配置不行就单机版的。
- 如果单机版的都装不了的话,就只能用IDEA开发环境了。至少得装 kafka 和 clickhouse 吧。我们将测试数据写入kafka,本地idea直接读取kafka写入ck。(但这个只能熟悉flink开发,很难测试性能)
必装组件:
jdk 1.8
hadoop 2.7.2 (这个好像也可以没有)
kafka 2.11
flink 1.13.2(这个好像也可以没有)
clickhouse 这个通过 yum 安装的
选装组件:
zK 3.4
hbase 1.4.9
mysql 这个通过 yum 安装的
hive
例 昵称-可用资源8c16g-集群模式/单机模式-是否能完成
3. 群主准备测试数据
4. 学员各自完成需求
完成时间:十一节后的第二个星期六。20211016 晚上开小会讨论、代码 review。
5. 学员尝试改用 flink sql 实现
完成时间:十一节后的第三个星期六。20211023 周六晚上开小会讨论、代码 review。
6. 进一步学习-这个不做要求
- 增大数据量测试性能。
- 可以尝试 sink 到 hive、doris 等。
草拟了一个规则,大家看一下:
1.目的:通过一次实战让大家快速入门。
2.学习方式:布置作业-收作业-辅助解决问题答疑
3.具体的学习方法等这两天完善后发出来