大数据 - JOIN问题 - 《知识积累》

面对OLAP场景, 数据不可避免都需要从存储获取数据拉出来计算，那么又应该如何高效稳定的做Join呢？

先不总结了，好累。。可以再联想准备下 mr join问题如何解决，mysql join问题如何解决，业务层面需要注意什么原则（尽量大表left join 小表）

什么是内存HashJoin？

什么是SortMergeJoin？
除了上面提到的HashJoin以外，PolarDB-X也实现了SortMergeJoin，SortMergeJoin顾名思义就是先同时对两边的数据排序(如果输入已经有序，可以忽略)，然后再两边的数据做Join。这种算法理解和实现，其实都比较简单, 其伪代码如下

实时计算维表关联