1、是什么?

Kudu是为Apache Hadoop平台开发的列式存储数据库。Kudu共享Hadoop生态系统应用程序的共同技术属性:它运行在普通硬件上,水平可伸缩,并支持高可用性操作。是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。

2、能做什么?

  • 实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到。
  • 时间序列相关的应用,需要同时支持:
    • 根据海量历史数据查询。
    • 必须非常快地返回关于单个实体的细粒度查询。
  • 实时预测模型的应用,支持根据所有历史数据周期地更新模型。
  • 流输入与接近实时可用性
  • 具有广泛不同访问模式的时间序列应用程序
  • 预测建模
  • 将Kudu中的数据与遗留系统相结合

3、优点?

  • OLAP(联机分析处理)工作负载的快速处理。
  • 与MapReduce、Spark等Hadoop生态系统组件集成。
  • 与Apache Impala的紧密集成,使其成为一个良好的、可变的替代方案,以使用Apache Parquet HDFS。
  • 强大但灵活的一致性模型,允许您在每个请求的基础上选择一致性要求,包括严格可序列化的一致性选项。
  • 同时运行顺序和随机工作负载的强大性能。
  • 易于管理和管理。
  • 高可用性。平板电脑服务器和主机使用Raft共识算法,该算法确保只要副本总数的一半以上可用,平板电脑就可以进行读写。例如,如果3个副本中有2个或5个副本中有3个可用,则tablet可用。
  • 读取可以由只读的跟随片提供服务,即使在leader片故障的情况下。
  • 结构化的数据模型。