Hadoop运维手册

浏览 529 扫码分享 2023-03-26 08:06:15

安全模式
修改副本数
系统磁盘空间操作
导出数据

安全模式

# 关闭安全模式
hadoop dfsadmin -safemode leave

修改副本数

# 查看整的dfs上的文件副本数
hadoop fsck -locations
# 检查单个文件副本数
hadoop fsck -locations  /temp/123.lzo
# -R: 文件夹递归
hadoop dfs -setrep 1 -R /
# -w: 等待副本操作结束才退出命令
hadoop dfs -setrep -R -w 1 /

系统磁盘空间操作

# 查看磁盘占用情况
df -hl
# 查看各目录空间使用情况
du -sh /*
du -sh /usr/*

导出数据

导出数据是针对加工后的内部表(结果数据) 进行导出，生产内部表都是parquet格式的数据。首先需要进行parquet转text的数据格式，然后再通过get merge命令将多个text文件数据合并为一个，将数据存储在/hadoop/${AC_DATE}/目录下。

hdfs dfs -getmerge /SDATA/GEMS/org2/30001231/* /hadoop/30001231/org2_30001231.dat

注意：

表的分隔符即为导出的列分隔符。
Hive默认将空值存为＼N如果不进行参数设置，会出现＼N的值，可通过参数将空值设置为其他字符。
```
alter table XXX setser deproperties('serialization.nul.format'='');
```

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录