1.Source对比

  1. Taildir Source相比Exec Source、Spooling Directory Source的优势TailDir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。
  2. Exec Source可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。
  3. Spooling Directory Source监控目录,不支持断点续传。要求文件夹及文件封闭

    2.Channel

    采用Kafka Channel,省去了Sink,提高了效率。

注意:

batchSize大小如何设置?
答:Event 1K左右时,500-1000合适(默认为100)