压缩种类

Compress 压缩选择

压缩类型 压缩处理类 是否分割 说明 优先级
Snappy org.apache.hadoop.io.compress.SnappyCodec Yes 压缩、解压均衡 1
LZO com.hadoop.compression.lzo.LzopCodec Yes 压缩、解压均衡 2
gzip org.apache.hadoop.io.compress.GzipCodec No 压缩效果好, 压缩、解压速度快 3
BZip2 org.apache.hadoop.io.compress.BZip2Codec Yes 压缩效果最好, 压缩、解压速度慢 4
Deflate org.apache.hadoop.io.compress.DeflateCodec Yes 默认 5
Hive ORC org.apache.hadoop.hive.ql.io.orc.OrcSerde Yes Hive 本身提供的压缩格式, 压缩、解压均衡 1

一、Parquet-and-ORC

  1. Parquet
  2. 不支持修改,
  3. Java 编写,
  4. 主导公司 Twitter/Cloudera
  5. 支持的查询引擎 Apache Drill/impala
  6. 支持索引 : block/group/chunk
  7. ORC :
  8. 支持修改,可与 Hive 结合
  9. Java 编写,
  10. 主导公司 Hortonworks
  11. 支持的查询引擎 Apache Hive
  12. 支持索引 : file/Stripe/row