输入梳理

  • 默认读取数据的组件叫做TextInputFormat
  • 关于输入路径︰

如果指向的是一个文件,处理该文件;
如果指向的是一个文件夹(目录),就处理该目录所有的文件,把所有文件当成整体来处理。

输出梳理

  • 默认输出数据的组件叫做TextOutputFormat
  • 输出路径不能提前存在,必须是一个不存在的目录,否则执行报错,因为底层会对输出路径进行检测判断
  • 可以在程序中编写代码进行判断,如果输出路径存在,先删除,再提交执行。

image.png
image.png