Flink简介

Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。

为什么选择Flink

  1. 流数据更真实地反映了我们生活方式
  2. 传统的数据架构是基于有限数据集的
  3. 我们的目标

    低延迟 高吞吐 结果的准确性和良好的容错性

    那些行业需要处理流数据

  4. 电商和市场营销

    1. 数据报表 广告投放 业务流程需要
  5. 物联网

     传感器实时数据采集和显示    实时报警      交通运输业
    
  6. 电信业

基站流量调配

  1. 银行和金融业

实时结算和通知推送 实时检测异常行为

有状态的流式处理

image.png

Flink的主要特点

image.png
image.png

Flink的其他特点

  1. 支持事件时间(event-time)和 处理时间(processing-time)语义
  2. 精确一次(exactly-once)的状态一致性保证
  3. 低延迟,每秒处理数百万个事件,毫秒级延迟
  4. 与众多常用存储系统的连接
  5. 高可用,动态扩展,实现7*24小时全天候运行

    Flink vs Spark Streaming

    image.png
    image.png

    Flink运行时的组件

    image.png

image.png
image.png
image.png
image.png

任务提交流程

image.png

任务提交流程(YARN)

image.png

任务调度原理

image.png