DStream是spark streaming提供的⼀种⾼级抽象,代表了⼀个持续不断的数据流。DStream可以通过输⼊数据源来创建,⽐如Kafka、flume等,也可以通过其他DStream的⾼阶函数来创建,⽐如map、reduce、join和window等。
    DStream内部其实不断产⽣RDD,每个RDD包含了⼀个时间段的数据。
    Spark streaming⼀定是有⼀个输⼊的DStream接收数据,按照时间划分成⼀个⼀个的batch,并转化为⼀个RDD,RDD的数据是分散在各个⼦节点的partition中。