谈一下你对数据仓库分层的理解,如果分成3层或者5层可以吗?

谈一下你对数仓技术选型的看法,请提出你的思路?

如何使用Sqoop将MySQL表数据导入Hive表中?

如何使用Sqoop将Hive表数据导出到MySQL表中?

开发数仓的时候有哪些注意事项?什么时候容易掉坑里面?

针对数仓脚本的开发心得,交流一下

什么是数据湖?谈一下你的理解?

使用Hive SQL可以实现数据清洗,使用Spark代码也能实现数据清洗,有什么区别吗?

使用Spark代码实现ods层数据清洗工作,替换掉之前的Hive SQL

针对用户信息表,有必要制作成拉链表吗?说出你的理由?

Crontab和Azkaban都能实现任务调度,应该如何技术选型呢?

如何使用Azkaban实现调度漏斗分析需求相关任务?

Hive和Impala有什么异同?谈一谈你对Impala的理解?

Ooize和Azkaban都是大数据中常用的任务调度工具,谈一下你对Ooize的看法?

介绍下数据仓库

数仓的基本原理

数仓架构

数据仓库分层(层级划分),每层做什么?分层的好处?

数据分层是根据什么?

数仓分层的原则与思路

数仓建模常用模型吗?区别、优缺点?

星型模型和雪花模型的区别?应用场景?优劣对比

数仓建模有哪些方式?

数仓建模的流程?

维度建模的步骤,如何确定这些维度的

维度建模和范式建模区别

维度表和事实表的区别?

什么是ER模型?

OLAP、OLTP解释(区别)三范式是什么,举些例子

维度设计过程,事实设计过程

维度设计中有整合和拆分,有哪些方法,并详细说明

事实表设计分几种,每一种都是如何在业务中使用

单事务事实表、多事务事实表区别与作用

说下一致性维度、一致性事实、总线矩阵

从ODS层到DW层的ETL,做了哪些工作?

数据仓库与(传统)数据库的区别?

数据质量是怎么保证的,有哪些方法保证

怎么衡量数仓的数据质量,有哪些指标

增量表、全量表和拉链表