此项目采取Structured Streaming 的形式

参考文章

概念明晰

从kafka中获得数据,其形式是DataFrame,先用pyspark对DataFrame进行处理,最后才开启streaming的开关。注意,开启streaming开关前,数据形式一直是DataFrame,与平常使用无异,不必过于在乎数据从哪里来,数据获得后就是一个DataFrame(真的很友好!)

项目

  1. pyspark连接kafka
  2. 从kafka中消费数据