[CLUSTERED BY (col_name, col_name, …)
分桶的字段,是从表的普通字段中来取
[SORTED BY (col_name [ASC|DESC], …)] INTO num_buckets BUCKETS]
分桶表意义
建表时指定了CLUSTERED BY,这个表称为分桶表!
分桶: 和MapReduce中分区是一个概念! 是把数据分散到多个文件中!
分桶的作用
分桶本质上也是为了分散数据!在分桶后,可以结合hive提供的抽样查询,只查询指定桶的数据
在分桶时,也可以指定将每个桶的数据根据一定的规则来排序
如果需要排序,那么可以在CLUSTERED BY后跟上SORTED BY