安全模式
# 关闭安全模式
hadoop dfsadmin -safemode leave
修改副本数
# 查看整的dfs上的文件副本数
hadoop fsck -locations
# 检查单个文件副本数
hadoop fsck -locations /temp/123.lzo
# -R: 文件夹递归
hadoop dfs -setrep 1 -R /
# -w: 等待副本操作结束才退出命令
hadoop dfs -setrep -R -w 1 /
系统磁盘空间操作
# 查看磁盘占用情况
df -hl
# 查看各目录空间使用情况
du -sh /*
du -sh /usr/*
导出数据
导出数据是针对加工后的内部表(结果数据) 进行导出, 生产内部表都是parquet格式的数据。首先需要进行parquet转text的数据格式, 然后再通过get merge命令将多个text文件数据合并为一个, 将数据存储在/hadoop/${AC_DATE}/目录下。
hdfs dfs -getmerge /SDATA/GEMS/org2/30001231/* /hadoop/30001231/org2_30001231.dat
注意:
- 表的分隔符即为导出的列分隔符。
- Hive默认将空值存为\N如果不进行参数设置, 会出现\N的值, 可通过参数将空值设置为其他字符。
alter table XXX setser deproperties('serialization.nul.format'='');