Apache ORC - 图1

    ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。

    官网:用于Hadoop工作负载的最小、最快的列存储。 the smallest, fastest columnar storage for Hadoop workloads.

    image.png

    在工作中,用的最多的地方是在 Hive 中。我们的数据存储格式使用的 ORC

    插一句,如果直接把普通的文本文件直接 load 到 orc 格式的表中,是会报错的。需要先把数据 load 到一张 textFile 格式的表中,再由这张表查询插入到 orc 格式的目标表中。

    存储数据除了考虑安全性,所占空间以及查询效率是直接关系到我们的业务的。数据量不压缩,对于大数据团队来说,集群的磁盘很容易不够用。数据存进去,我们是要用的,业务方提了一个小需求,你的任务跑了大半个小时,显然也是不合理的。

    这些问题都可以解决掉,但并不是完全解决。