压缩格式是不会影响存储格式整体是否能切割的。列存整体都是可切割的,但局部是否能切割才取决于压缩格式。比如 parquet + snappy ,parquet 最小的压缩粒度是 page(默认 8KB),page 不可切分,但并不妨碍整个 parquet 文件可切分。你可以试着读一个大的 parquet + snappy 文件试试。orc 同理,只不过 orc 的粒度比较粗而已。+
orc 粒度更粗的说法不太对,动手试了下 Parquet 的粒度好像还更粗。 Parquet 是按照 row group (128M)切割的,orc 是按照 Stripe (64M)切割的,这两个参数都是可以设置的。不过感觉一般没啥必要去设置,毕竟一般一个 executor 应该也能处理的来这个大小的数据