安全模式

  1. # 关闭安全模式
  2. hadoop dfsadmin -safemode leave

修改副本数

  1. # 查看整的dfs上的文件副本数
  2. hadoop fsck -locations
  3. # 检查单个文件副本数
  4. hadoop fsck -locations /temp/123.lzo
  5. # -R: 文件夹递归
  6. hadoop dfs -setrep 1 -R /
  7. # -w: 等待副本操作结束才退出命令
  8. hadoop dfs -setrep -R -w 1 /

系统磁盘空间操作

  1. # 查看磁盘占用情况
  2. df -hl
  3. # 查看各目录空间使用情况
  4. du -sh /*
  5. du -sh /usr/*

导出数据

导出数据是针对加工后的内部表(结果数据) 进行导出, 生产内部表都是parquet格式的数据。首先需要进行parquet转text的数据格式, 然后再通过get merge命令将多个text文件数据合并为一个, 将数据存储在/hadoop/${AC_DATE}/目录下。

  1. hdfs dfs -getmerge /SDATA/GEMS/org2/30001231/* /hadoop/30001231/org2_30001231.dat

注意:

  1. 表的分隔符即为导出的列分隔符。
  2. Hive默认将空值存为\N如果不进行参数设置, 会出现\N的值, 可通过参数将空值设置为其他字符。
    1. alter table XXX setser deproperties('serialization.nul.format'='');