- 谈一下你对数据仓库分层的理解,如果分成3层或者5层可以吗?
- 谈一下你对数仓技术选型的看法,请提出你的思路?
- 如何使用Sqoop将MySQL表数据导入Hive表中?
- 如何使用Sqoop将Hive表数据导出到MySQL表中?
- 开发数仓的时候有哪些注意事项?什么时候容易掉坑里面?
- 针对数仓脚本的开发心得,交流一下
- 什么是数据湖?谈一下你的理解?
- 使用Hive SQL可以实现数据清洗,使用Spark代码也能实现数据清洗,有什么区别吗?
- 使用Spark代码实现ods层数据清洗工作,替换掉之前的Hive SQL
- 针对用户信息表,有必要制作成拉链表吗?说出你的理由?
- Crontab和Azkaban都能实现任务调度,应该如何技术选型呢?
- 如何使用Azkaban实现调度漏斗分析需求相关任务?
- Hive和Impala有什么异同?谈一谈你对Impala的理解?
- Ooize和Azkaban都是大数据中常用的任务调度工具,谈一下你对Ooize的看法?
- 介绍下数据仓库
- 数仓的基本原理
- 数仓架构
- 数据仓库分层(层级划分),每层做什么?分层的好处?
- 数据分层是根据什么?
- 数仓分层的原则与思路
- 数仓建模常用模型吗?区别、优缺点?
- 星型模型和雪花模型的区别?应用场景?优劣对比
- 数仓建模有哪些方式?
- 数仓建模的流程?
- 维度建模的步骤,如何确定这些维度的
- 维度建模和范式建模区别
- 维度表和事实表的区别?
- 什么是ER模型?
- OLAP、OLTP解释(区别)三范式是什么,举些例子
- 维度设计过程,事实设计过程
- 维度设计中有整合和拆分,有哪些方法,并详细说明
- 事实表设计分几种,每一种都是如何在业务中使用
- 单事务事实表、多事务事实表区别与作用
- 说下一致性维度、一致性事实、总线矩阵
- 从ODS层到DW层的ETL,做了哪些工作?
- 数据仓库与(传统)数据库的区别?
- 数据质量是怎么保证的,有哪些方法保证
- 怎么衡量数仓的数据质量,有哪些指标
- 增量表、全量表和拉链表