JavaSE - Hashtable、HashMap、TreeMap - 《Java》

知识扩展

Hashtable、HashMap、TreeMap都是常见的一些Map实现，是以键值对的形式存储和操作数据的容器类型。

Hashtable是早期Java类库提供的一个哈希表实现，本身是同步的，不支持null键和值，由于同步导致的性能开销，所以很少被推荐使用。

HashMap是应用更加广泛的哈希表实现，行为上大致与Hashtable一致，主要区别在于HashMap不是同步的，支持null键和值等。通常情况下，HashMap进行put或者get操作，可以达到常数时间的性能，所以它是绝大部分利用键值对存取场景的首选，比如，实现一个用户ID和用户信息对应的运行时存储结构。

TreeMap则是基于红黑树的一种提供顺序访问的Map，和HashMap不同，它的get、put、remove之类操作都是O(log(n))的时间复杂度，具体顺序可以由指定的Comparator来决定，或者根据键的自然顺序来判断。

知识扩展

Map虽然通常被包括在Java集合框架里，但是其本身并不是狭义上的集合类型（Collection）。简单类图如下：

有序的Map有：LinkedHashMap、TreeMap。其他类型的Map都是无序的。
HashMap解读：其内部结构如下图所示，它可以看作是数组和链表的复合结构（又叫散列表），数组被分为一个个桶（bucket），通过哈希值决定了键值对在这个数组的寻址；哈希值相同的键值对，则以链表形式存储。如果链表大小超过阈值（MIN_TREEIFY_CAPACITY），链表就会被改造为树形结构，此过程被称为树化。存储键值对时，散列函数会将其均匀分配到桶数组中，以此来保证不会所有的键值对都存在一个桶中而导致扩容。扩容是指增加桶数组的个数。扩容会重新计算每个元素在新数组中的位置，然后再进行存储。这是一个十分消耗性能的操作。容量是指桶的个数。

为什么要进行树化呢？本质上是一个安全问题。因为在元素放置过程中，如果一个对象哈希冲突，都被放置到一个桶里，则会形成一个链表，我们知道链表查询是线性的，会严重影响存取的性能。而在现实世界，构造哈希冲突的数据并不是非常复杂的事情，恶意代码就可以利用这些数据大量与服务器端交互，导致服务器端CPU大量占用，这就构成了哈希碰撞拒绝服务攻击。
HashMap扩容的的条件是：元素数量 >= 容量负载因子。负载因子默认是0.75，也可以自由设置。设置的过大则空间利用率高，但查询效率会变低；设置的过小，则空间利用率低，查询效率会变高。每次扩容，桶数量都增加一倍。扩容后，需要将老的数组中的元素重新计算并放到新的数组，这是扩容的一个主要开销来源。为了避免扩容的影响，我们可以简单预估并设置合适的容量大小。预估方法：因为当满足公式负载因子容量 > 元素数量时不会扩容，等同于当容量 > 元素数量 / 负载因子时不会扩容。而容量又是 2 的幂数，容量就会轻易的得出，最后在初始化时设置即可。