1、《大数据之路:阿里巴巴大数据实践》
阿里的大数据最佳实践,基本上讲了阿里在大数据实践上的方方面面,特别是数据模型的设计和实践,理论和实践结合的比较好,是我目前看到最好的一本书。
该书可作为整个数据体系建设的参考书,从数据平台到数据仓库到数据应用,都有比较不错的讲解。另外,本书的很多论述可以用作方案设计、老板汇报、晋升答辩等,值得反复看。
2、《数据仓库工具箱(第3版):维度建模权威指南》
英文名:《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》
维度建模是大师 Ralph Kimball 所倡导的, 这本《数据仓库工具箱》是数据仓库经典书籍,特别是维度建模相关的内容非常权威,目前市面上能买到的书,很少有比这个更权威的了。
3、《数据驱动:从方法到实践》
这本书内容很棒,个人感觉主要是从数据分析的视野来讲解整个数据体系,基本把数据相关的方法论讲了一遍,适合所有从事数据工作的童鞋看一下。
书中列出来很多实际工作中会遇到的坑,也都给出了一定的解决思路,但是个人感觉文中涉及到的技术比较少,更多的是各种思路和方法论。
4、《大数据日知录》
这本书主要偏向于各种大数据系统的原理,是居士翻的最多的一本技术书了,基本上把现在流行的大数据组件都介绍了一遍,深度和广度都有,每章内容后面也都有相应的论文推荐。
5、《数据挖掘:概念与技术(原书第3版)》
这是一本数据挖掘的书,但是没关系,数据仓库本身就是和数据挖掘息息相关的,或者是说数据仓库是数据挖掘的支撑。这本书的前5章十分值得一读,它讲了其它书没有深入讲的OLAP和数据立方体技术,比如说Kylin构建Cube。
6、《美团机器学习实践》
这本书主要是关于机器学习实践的书,可读性很强,都是一些实际案例的讲解,个人认为本书和阿里的大数据之路很类似,都是实战性很强干货十足的书。
本书前面几部分包含了特征工程和用户画像的内容,特别是用户画像体系设计可以参考本书。
7、《数据仓库(原书第4版)》
范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解。在数据仓库的模型设计中目前一般采用第三范式。范式模型由数据仓库之父 Inmon 提倡,而这本书就是 Inmon 所写。
8、《数据架构 大数据 数据仓库以及Data Vault》
本书提出了Data Vault这种数据建模方式,但是Data Vault到底是什么,居士理解的也不深,毕竟在工作中没有具体设计过这种模型。
9、《数据天才:数据科学家修炼之道》
本书探讨来数据科学家是什么,会有很多示例以及分析。书的视角和前面几本都有所不同,个人感觉主要是从人的角度来规划数据科学家的发展道路。
10、数据仓库系列文章
https://github.com/dantezhao/data-warehouse