1、是什么?
Kudu是为Apache Hadoop平台开发的列式存储数据库。Kudu共享Hadoop生态系统应用程序的共同技术属性:它运行在普通硬件上,水平可伸缩,并支持高可用性操作。是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。
2、能做什么?
- 实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到。
- 时间序列相关的应用,需要同时支持:
- 根据海量历史数据查询。
- 必须非常快地返回关于单个实体的细粒度查询。
- 实时预测模型的应用,支持根据所有历史数据周期地更新模型。
- 流输入与接近实时可用性
- 具有广泛不同访问模式的时间序列应用程序
- 预测建模
- 将Kudu中的数据与遗留系统相结合
3、优点?
- OLAP(联机分析处理)工作负载的快速处理。
- 与MapReduce、Spark等Hadoop生态系统组件集成。
- 与Apache Impala的紧密集成,使其成为一个良好的、可变的替代方案,以使用Apache Parquet HDFS。
- 强大但灵活的一致性模型,允许您在每个请求的基础上选择一致性要求,包括严格可序列化的一致性选项。
- 同时运行顺序和随机工作负载的强大性能。
- 易于管理和管理。
- 高可用性。平板电脑服务器和主机使用Raft共识算法,该算法确保只要副本总数的一半以上可用,平板电脑就可以进行读写。例如,如果3个副本中有2个或5个副本中有3个可用,则tablet可用。
- 读取可以由只读的跟随片提供服务,即使在leader片故障的情况下。
- 结构化的数据模型。