【为什么需要数据建模?】

随着 时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,
如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。

如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;
如果把数据看作城市的建筑,我们希望城市规划布局合理;
如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕棍乱的桌面,经常为找 个文件而不知所措。

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
Linux 的创始人 Torvalds 一段关于“什么才是优秀程序员”的话:
“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,
其阐述了数据模型的重要性。
有了适合业务 和基础数据存储环境的模型,那么大数据就能获得以下好处。

性能

良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O 吞吐。

成本

良好的数据模型能极大地减少不必要的数据冗余,
也能实现计算结果复用,
极大地降低大数据系统中的存储和计算成本。

效率

良好的数据模型能极大地改善用户使用数据的体验,
提高使用数据的效率。

质量

良好的数据模型能改善数据统计口径的不一致性,
减少数据计算错误的可能性。
因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,
以便在性能、成本、效率和质量之间取得最佳平衡。

——来源:《数据之路一一阿里巴巴大数据实践》