概述

排查离线数据计算问题需要使用parquet-tools.jar这个工具查看parquet文件的各种信息。Parquet文件格式与Hive Metastore对不上会导致文件无法读取。

查看parquet元数据信息的方式

parquet-tools的使用

  1. hadoop jar tool/parquet-tools-1.11.1.jar meta /user/hive/warehouse/dev.db/wuren_fb/part-00000-15aad9fd-29c1-4537-b948-76e921e7afcf.snappy.parquet

image.png

parquet-cli的使用

  1. hadoop jar tool/parquet-cli-1.11.1-runtime.jar org.apache.parquet.cli.Main meta part-00000-15aad9fd-29c1-4537-b948-76e921e7afcf.snappy.parquet

image.png

parquet-tools下载地址

https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools

parquet-cli要自己编译
https://github.com/apache/parquet-mr/tree/master/parquet-cli

参考资料

http://www.mtitek.com/tutorials/bigdata/hadoop/parquet-tools.php
https://parquet.apache.org/documentation/latest/
https://www.infoq.cn/article/in-depth-analysis-of-parquet-column-storage-format/