翻译:大规模并行处理

    MPP(本质是分布式数据库)与hadoop(mr系统)的主要区别在于节点的扩展
    mpp首先考虑 C一致性->A可靠性->P可分区
    hadoop首先考虑 P->A->C

    但是如果有很多非结构化数据(例如json),或者数据量巨大,有需要扩展到成百上千个数据节点需求的,这个时候Hadoop是更好的选择。

    mpp没有中心节点,需要自己做分片,比如hash,每次增加节点都要rehash,这样当规模到了几百台的时候,扩展能力就下来了

    hive基于hdfs有中心化的元数据管理,增加节点的时候只要更新元数据信息即可,扩展能力相当强

    mpp内存管理比较精细,处理较少的数据量的时候延迟非常低,但是数据量大的时候精细化的内存管理反而会非常慢,所以也需要使用到列式存储
    而hive 的 内存管理非常粗狂,就是直接scan不行就split,数据量大是时候吞吐量也可以非常大

    MPP是OLAP系统,是一种快速查询的系统
    如clickhouse,greenplum,doris