参考文章
- https://www.cnblogs.com/apachecnxy/p/7598438.html 中文版 Structured Streaming 编程指南
- http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.from_json 官方pyspark教程
- https://mtpatter.github.io/bilao/notebooks/html/01-spark-struct-stream-kafka.html pyspark+kafka基础入门项目
- https://stackoverflow.com/questions/57349335/how-to-read-from-kafka-and-print-out-records-to-console-in-structured-streaming How to read from Kafka and print out records to console in Structured Streaming in pyspark?
概念明晰
从kafka中获得数据,其形式是DataFrame,先用pyspark对DataFrame进行处理,最后才开启streaming的开关。注意,开启streaming开关前,数据形式一直是DataFrame,与平常使用无异,不必过于在乎数据从哪里来,数据获得后就是一个DataFrame(真的很友好!)
项目
- pyspark连接kafka
- 从kafka中消费数据