面试官您好,我叫xxx,2020年毕业后就职于xxx公司担任大数据开发一职,我们所涉及的主要是针对各电厂的机组设备等运行状态等过程中产生的数据进行一个整合处理。我参与过得项目主要是两个项目。一个是xxx,另一个是xxx,第一个项目是我进公司的时候实习期中参与的,主要工作是项目中有一块功能:经济运行趋势分析,这块主要是使用的spark sql 对数据进行数学计算统计。这块主要是当时上一位离职者写的,我后期对比结果做了一些sql计算调整。在第二个项目中其实是划分为了几个子项目,一是从各个电厂的数据中心接入实时和历史数据到大数据平台,这个我们项目使用的是华为的FI集群的hive,这块主要是针对不通的电厂的数据来源进行了不同的数据接入方式,有kafka、达梦数据库、json文件等,第二个是一个数据同步并统计,主要是将各个电厂的数据通过集群同步到公司集群上,做一个日增数据统计。
目前项目设计到的大数据组件技术有kafka、hive、spark等,另外目前对flink这一块自己也有一定的了解学习。
