核心特性

  • 统一数据处理组件栈,处理不同类型的数据需求:批计算、流计算、机器学习、图计算
  • 支持事件时间、接入时间、处理时间等时间概念
  • 基于轻量级分布式快照(snapshot)实现的容错
  • 支持有状态计算:
    • 支持非常大的状态
    • 支持可查询到状态
    • 支持灵活的状态:HDFS、内存RocksDB
  • 支持高度灵活的窗口操作:
    • 会话窗口
    • 滚动窗口
    • 滑动窗口
  • 带反压的连续流模型
  • 基于JVM实现独立的内存管理
    • 可以超出主内存的大小限制,并且承受更少的垃圾收集的开销
    • 对象序列化二进制存储,类似C对内存的管理