介绍

HashMap是基于Map接口的实现,位于java.util包下,HashMap类似于HashTable,
作用主要是存放键值对,和HashTable不同的是,
HashMap不是同步的,是线程不安全的,且允许空值。
HashMap不能保证它的节点的顺序随时间不变,也就是说Map里面的节点的顺序是不断变化的。
这里所使用JDK版本是8。
Map家族的整体结构:
image.png

Map下不同实现类的特点

HashMap:它根据键的hashCode值存储数据,大多数情况下可以直接定位到它的值,因而具有很快的访问速度,但遍历顺序却是不确定的。 HashMap最多只允许一条记录的键为null,允许多条记录的值为null。HashMap非线程安全,即任一时刻可以有多个线程同时写HashMap,可能会导致数据的不一致。如果需要满足线程安全,可以用 Collections的synchronizedMap方法使HashMap具有线程安全的能力,或者使用ConcurrentHashMap。
Hashtable:Hashtable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自Dictionary类,并且是线程安全的,任一时间只有一个线程能写Hashtable,并发性不如ConcurrentHashMap,因为ConcurrentHashMap引入了分段锁。Hashtable不建议在新代码中使用,不需要线程安全的场合可以用HashMap替换,需要线程安全的场合可以用ConcurrentHashMap替换。
LinkedHashMap:LinkedHashMap是HashMap的一个子类,保存了记录的插入顺序,在用Iterator遍历LinkedHashMap时,先得到的记录肯定是先插入的,也可以在构造时带参数,按照访问次序排序。
TreeMap:TreeMap实现SortedMap接口,能够把它保存的记录根据键排序,默认是按键值的升序排序,也可以指定排序的比较器,当用Iterator遍历TreeMap时,得到的记录是排过序的。如果使用排序的映射,建议使用TreeMap。在使用TreeMap时,key必须实现Comparable接口或者在构造TreeMap传入自定义的Comparator,否则会在运行时抛出java.lang.ClassCastException类型的异常。

对于上述四种Map类型的类,要求映射中的key是不可变对象。不可变对象是该对象在创建后它的哈希值不会被改变。如果对象的哈希值发生变化,Map对象很可能就定位不到映射的位置了。

HashMap的类图如下:
image.png
HashMap的类定义如下:

  1. public class HashMap<K,V> extends AbstractMap<K,V>
  2. implements Map<K,V>, Cloneable, Serializable

不着急,我们再看看AbstractMap的类定义:

  1. public abstract class AbstractMap<K,V> implements Map<K,V>

为什么HashMap要声明implements Map?

在这里,细心的同学就发现了,HashMap继承了AbstractMap,而AbstractMap又实现了Map接口,
为什么HashMap还要声明implements Map呢?是不是多此一举,这样的地方不止一处,
我们可以在集合框架中观察到很多这样的现象,比如LinkedHashSet的定义:

  1. public class LinkedHashSet<E> extends HashSet<E>
  2. implements Set<E>,Cloneable, java.io.Serializable

这个地方和HashMap的定义极其相似,我们最终在stackoverflow上找到了答案:

I’ve asked Josh Bloch, and he informs me that it was a mistake.He used to think, long ago, that there was some value in it, but he since “saw the light”. Clearly JDK maintainers haven’t considered this to be worth backing out later.

Josh Bloch是集合框架的创始人,集合相关的类上的作者声明基本都有他的名字,他认为这是一个失误,当初设计时认为在某些地方是有价值的,后来看到了光,但是这个呢不影响什么,所以JDK维护者也一直没有修改它。
原地址:
https://stackoverflow.com/questions/2165204/why-does-linkedhashsete-extend-hashsete-and-implement-sete

数据结构

Map接口的定义

由于HashMap实现了Map接口,我们先看Map接口的定义:

  1. public interface Map<K,V> {
  2. int size();
  3. boolean isEmpty();
  4. V get(Object key);
  5. V put(K key, V value);
  6. V remove(Object key);
  7. void clear();
  8. Set<K> keySet();
  9. Collection<V> values();
  10. Set<Map.Entry<K, V>> entrySet();
  11. // .... 省略了一些接口方法
  12. interface Entry<K,V> {
  13. K getKey();
  14. V getValue();
  15. V setValue(V value);
  16. boolean equals(Object o);
  17. int hashCode();
  18. // .... 省略了一些接口方法
  19. }
  20. }

可以看出,Map接口内部还有一个接口Entry,这个Entry就是Map里面实际的节点,也就是键值对。
Entry接口定义了getKey,getValue等函数,Map则定义了keySet,values,entrySet等函数。

Node键值对

Map.Entry在HashMap中的实现是Node,看看源码:

  1. static class Node<K,V> implements Map.Entry<K,V> {
  2. final int hash;
  3. // key值
  4. final K key;
  5. // value值
  6. V value;
  7. // 指向下一个节点
  8. Node<K,V> next;
  9. Node(int hash, K key, V value, Node<K,V> next) {
  10. this.hash = hash;
  11. this.key = key;
  12. this.value = value;
  13. this.next = next;
  14. }
  15. public final K getKey() { return key; }
  16. public final V getValue() { return value; }
  17. public final String toString() { return key + "=" + value; }
  18. public final int hashCode() {
  19. return Objects.hashCode(key) ^ Objects.hashCode(value);
  20. }
  21. public final V setValue(V newValue) {
  22. V oldValue = value;
  23. value = newValue;
  24. return oldValue;
  25. }
  26. public final boolean equals(Object o) {
  27. if (o == this)
  28. return true;
  29. if (o instanceof Map.Entry) {
  30. Map.Entry<?,?> e = (Map.Entry<?,?>)o;
  31. if (Objects.equals(key, e.getKey()) &&
  32. Objects.equals(value, e.getValue()))
  33. return true;
  34. }
  35. return false;
  36. }
  37. }

可以看出Node是一种链表结构,存储了key和value的信息,用next指向它挨着的下一个节点。

HashMap的内部结构

HashMap内的静态变量

HashMap内的静态变量如下:

  1. // 默认初始化的容量,16
  2. static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
  3. // 最大容量,2^30
  4. static final int MAXIMUM_CAPACITY = 1 << 30;
  5. // 默认负载因子,0.75
  6. static final float DEFAULT_LOAD_FACTOR = 0.75f;
  7. // 节点树化阈值,8
  8. static final int TREEIFY_THRESHOLD = 8;
  9. // 解除节点树化阈值,6
  10. static final int UNTREEIFY_THRESHOLD = 6;
  11. // 最小树化容量,64
  12. static final int MIN_TREEIFY_CAPACITY = 64;

HashMap内的成员字段

HashMap内的成员字段如下:

  1. // 表,长度始终是2的幂
  2. transient Node<K,V>[] table;
  3. // entrySet 缓存
  4. transient Set<Map.Entry<K,V>> entrySet;
  5. // 表中键值对的数量
  6. transient int size;
  7. // 表结构修改次数,用于fail-fast机制
  8. transient int modCount;
  9. // 下次扩容的阈值,(容量 * 负载因子)
  10. int threshold;
  11. // 负载因子
  12. final float loadFactor;

Node数组就是HashMap的内部存储结构,每一个Node又是一个链表,
所以HashMap = 数组 + 链表。
不过我们注意到Node下面还有子类LinkedHashMap.Entry,LinkedHashMap.Entry的子类是HashMap.TreeNode,这个TreeNode就是树节点,根据里式替换原则,Node节点也是可以表示为这个TreeNode的,所以HashMap=数组 + 链表 / 树。

下面是几个面试题,一个一个来:

table的长度为什么始终是2的幂?(hash & (n -1))

这是因为,为了高效存取,
在存取元素时都需要根据元素的hash值计算下标,算法为:hash & (n -1)
hash是节点的hash值,n是hash表的大小,
它的目的是将key转换为数组下标,
hash值我们知道是一个int值,4个字节,32位,有可能很大
而hash表的大小n一般很小,一般在2的16次方以下吧,
为了hash的计算结果在0到n范围,不要溢出hash表的范围,一般对hash值采用取余算法
将hash / n的余数设置为数组下标,这样余数就是[0,n),和hash表下标[0,n)一致,
即 hash % n作为下标,正好满足节点下标下落范围的要求。

而hash & (n -1)实际与 hash % n 的效果一致,但前提是n为2的幂次方,
那为什么会一致?
假设n是2的n次幂,比如2,4,8,16,二进制分别表示为10,100,1000,
通过观察发现都是开头一个1,后面n个0的格式,
然后我们观察下n-1的格式,比如1,3,7,15,二进制分别表示为1,11,111,1111
可以看到n-1这个值的二进制的表示永远是n个1的叠加。
&与运算我们都知道,两个同时为1,结果为1,否则为0,
用hash & (n -1),比如 100100101 和 111 做&运算,那么结果是101,
就是说hash值前面的部分会被丢弃,
最后结果会是0到n-1的一个数字,和 hash % n 是异曲同工之妙。
而且&位运算操作做位运算比%效率更高,这个操作保证了下标落在0到n范围内,结果会在hash表的整个空间内随机下落,不会溢出也不会有存储不到的下标。
所以为2次幂的目的就是为了高效的存取,也为后面的下标算法埋下了伏笔,&运算比%运算会真的快很多。
这也解释了每次table扩容为什么要扩容大小是原来的2倍的原因也就在于此。

初始容量为什么要写成1 << 4,不直接写成16?

从字节码角度而言,1 << 4也会编译成16,所以和直接写16是一样的。
写成1 << 4是为了提醒你这个值始终是2的幂。
至于为什么是16,16作为一个经验值不会太大也不会太小。

最大容量为什么是1<<30而不是1<<31?

首先最大容量为一个int值,int占32位,可以表示2^32个数字。
但是int在java里作为一个有符号的数据类型,有正负之分,所以表示范围是-2^31 ~ 2^31-1。
这里最大值就是2^31-1,为什么减一不用多说了吧,因为0占了一位。
1<<30等同于2^30,而HashMap每次扩容是2倍*当前容量,当容量达到最大值2^30时,再扩容就是2^31了,这时会产生溢出,超过了int的最大值2^31-1,所以最大容量只能是2^30也就是1 << 30。

默认负载因子为什么是0.75?

这个简单,0.75是一个好数字啊,0.75是在时间和空间成本上的一种平衡,太小了将会导致频繁的rehash,而且空间浪费大,太大了hash冲突将会频繁产生,性能也不高。

树化阈值为什么是8?

这个答案在jdk注释里面就有

  • Because TreeNodes are about twice the size of regular nodes, we
    use them only when bins contain enough nodes to warrant use
    (see TREEIFY_THRESHOLD). And when they become too small (due to
    removal or resizing) they are converted back to plain bins. In
    usages with well-distributed user hashCodes, tree bins are
    rarely used. Ideally, under random hashCodes, the frequency of
    nodes in bins follows a Poisson distribution
    (http://en.wikipedia.org/wiki/Poisson_distribution) with a
    parameter of about 0.5 on average for the default resizing
    threshold of 0.75, although with a large variance because of
    resizing granularity. Ignoring variance, the expected
    occurrences of list size k are (exp(-0.5) pow(0.5, k) /
    factorial(k)). The first values are:

    0: 0.60653066
    1: 0.30326533
    2: 0.07581633
    3: 0.01263606
    4: 0.00157952
    5: 0.00015795
    6: 0.00001316
    7: 0.00000094
    8: 0.00000006
    more: less than 1 in ten million

    The root of a tree bin is normally its first node. However,
    sometimes (currently only upon Iterator.remove), the root might
    be elsewhere, but can be recovered following parent links
    * (method TreeNode.root()).

大意:如果 hashCode的分布离散良好的话,那么红黑树是很少会被用到的,因为各个值都均匀分布,很少出现链表很长的情况。在理想情况下,链表长度符合泊松分布,各个长度的命中概率依次递减,注释中给我们展示了1-8长度的具体命中概率,当长度为8的时候,概率概率仅为0.00000006,超过8是小于千万分之一的概率,这么小的概率,HashMap的红黑树转换几乎不会发生。
Hash碰撞超过8次概率小于千万分之一,希望没有人在HashMap里存一千万个数据。

解除树化阈值为什么是6?

如果没有解除树化阈值,只用8来树化和解除,那么8将成为一个临界值,时而树化,时而退化。
这非常的影响影响性能,所以需要一个退化为链表的阈值。
如果是7的话,就差了1,仍然会相互转化,并不会好多少。
那么将7作为一个分水岭,大于7进化,小于7退化是一个不错的选择。
考虑到内存和为了避免相互转化,解除树化的阈值最大为6。

最小树化容量为什么是64?

这是因为容量低于64时,哈希碰撞的机率比较大,而这个时候出现长链表的可能性会稍微大一些,这种原因下产生的长链表,我们应该优先选择扩容而避免不必要的树化。

TreeNode

TreeNode的继承关系是HashMap.TreeNode -> LinkedHashMap.Entry -> HashMap.Node,
好家伙,子类的内部类继承了父类的内部类,父类的另一个内部类又继承了子类的内部类,搁这鸡生蛋蛋生鸡呢。
源代码如下:

  1. public class LinkedHashMap<K,V>
  2. extends HashMap<K,V>
  3. implements Map<K,V>
  4. {
  5. static class Entry<K,V> extends HashMap.Node<K,V> {
  6. Entry<K,V> before, after;
  7. Entry(int hash, K key, V value, Node<K,V> next) {
  8. super(hash, key, value, next);
  9. }
  10. }
  11. // 省略其他代码......
  12. }
  13. public class HashMap<K,V> extends AbstractMap<K,V>
  14. implements Map<K,V>, Cloneable, Serializable{
  15. static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
  16. TreeNode<K,V> parent;
  17. TreeNode<K,V> left;
  18. TreeNode<K,V> right;
  19. TreeNode<K,V> prev;
  20. boolean red;
  21. // 省略其他代码......
  22. }
  23. }

TreeNode为啥不直接继承Node?

细心的同学有个问题,TreeNode为啥不直接继承Node,而是要继承LinkedHashMap.Entry这个中间类呢?
而且LinkedHashMap.Entry的两个字段before, after也没有在HashMap里面用到。

答案来了:确实,LinkedHashMap.Entry确实对于HashMap没有一丢丢的作用,他的作用是为LinkedHashMap设计的。
回顾一下继承关系:HashMap.TreeNode -> LinkedHashMap.Entry -> HashMap.Node。
LinkedHashMap是一个节点有顺序的HashMap,LinkedHashMap.Entry作为它的键值对结构,同时他和HashMap的结构要求是一样的,也是数组 + 链表 / 树,只不过节点可以按顺序访问。他的键值对LinkedHashMap.Entry首先继承了HashMap.Node,直接就有了链表的功能,然后利用了HashMap.TreeNode继承LinkedHashMap.Entry,所以他的Entry节点也是可以表现为树的形式。
如果TreeNode继承于Node,Entry也继承Node,LinkedHashMap的树节点形式无法体现,为了复用HashMap的代码,所以TreeNode继承于Entry。
如果TreeNode继承于Node,Entry继承TreeNode呢?那确实可以这么做,但是有丢丢浪费,Entry是用不到parent,left,right,prev这种字段的。
所以呢这种代码复用对LinkedHashMap是很友好的,LinkedHashMap把HashMap复用到了极致,
对于HashMap而言呢,它的TreeNode节点浪费了before, after这两个字段,不过在hashcode方法实现均匀的情况下,HashMap极少会出现TreeNode节点。

构造过程

看一下HashMap的构造函数,选择这个参数最全的。

  1. public HashMap(int initialCapacity, float loadFactor) {
  2. // 初始容量小于0,抛出非法参数异常
  3. if (initialCapacity < 0)
  4. throw new IllegalArgumentException("Illegal initial capacity: " +
  5. initialCapacity);
  6. // 如果初始容量超过最大容量,将最大容量赋值为初始容量
  7. if (initialCapacity > MAXIMUM_CAPACITY)
  8. initialCapacity = MAXIMUM_CAPACITY;
  9. // 负载因子小于等于0或者不是数字抛出非法参数异常
  10. if (loadFactor <= 0 || Float.isNaN(loadFactor))
  11. throw new IllegalArgumentException("Illegal load factor: " +
  12. loadFactor);
  13. // 为负载因子赋值
  14. this.loadFactor = loadFactor;
  15. // 根据initialCapacity计算初始的扩容阈值
  16. this.threshold = tableSizeFor(initialCapacity);
  17. }

需要注意的是这里计算的扩容阈值只是一个初始的赋值,没有乘以负载因子,因为table数组还没有进行初始化,当table数组进行初始化之后threshold才会乘上以负载因子。

tableSizeFor方法解析

计算初始的扩容阈值调用了tableSizeFor方法,以下是源码:

  1. /**
  2. * Returns a power of two size for the given target capacity.
  3. */
  4. static final int tableSizeFor(int cap) {
  5. int n = cap - 1;
  6. n |= n >>> 1;
  7. n |= n >>> 2;
  8. n |= n >>> 4;
  9. n |= n >>> 8;
  10. n |= n >>> 16;
  11. return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
  12. }

从注释我们看出,tableSizeFor方法是计算比目标数字的大的第一个2次幂,
比如传5,就返回8,传13就返回16,有一个问题是如果传的参数本身就是2次幂,那他会返回什么?
这个问题的答案是会返回它本身,比如传4就返回4,传8就返回8。
下面我们分析一下这几行代码。

  1. int n = cap - 1;

好家伙,上来先减个1,这里为什么要减1呢,因为如果在参数本身就是2次幂的情况下,先进行减1,
然后再求大于这个数的第一个2次幂,这样不用做额外的判断,提高了效率。

  1. n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16;

假设n为二进制0b01XXXXXX(6个X),右移1位n >>> 1为0b001XXXXX(5个X),再进行或运算为0b011XXXXX(5个X),这时候表达式的开头变成了两个1,那么下次再右移2位进行或运算,11后面的两位也会变成1,n |= n >>> 2就会变为0b01111XXX,如果假设二进制表达式低位没有了0,全都是1,那么后面进行右移再或运算也不会改变结果。如果低位依然有0,那么继续这个操作,直到int的32位都进行了或运算。
那么最后的结果是,这个二进制表达式中低位的0全部被替换成了1,就是这个二进制目前的位数能够表达的最大值,比如15是二进制4位能表达的最大值,表达式是0b1111,它如果再+1,将会发生进位并产生连锁反应,后面所有的1都会变成0,0b1111 + 1 = 0b10000(16)。
我们知道二进制第一位是1后面全是0这种形式,它就是2的幂。

  1. return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;

如果结果小于0的话就返回1,大于0的话先判断是否超过最大容量,如果超过了就返回最大容量,不超过返回n + 1,n + 1是因为第二步返回了二进制当前位数的最大值,用n + 1进行进位操作,返回的值就是大于这个数字最接近的2次幂。

添加元素的过程(put函数)

下面是添加一个元素的过程:

  1. public V put(K key, V value) {
  2. // 根据key计算hash值传入,key ,value,不改变现有值,创建模式
  3. return putVal(hash(key), key, value, false, true);
  4. }
  5. final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
  6. boolean evict) {
  7. Node<K,V>[] tab; Node<K,V> p; int n, i;
  8. // 如果table未初始化,先进行初始化,初始化也是调用扩容函数
  9. if ((tab = table) == null || (n = tab.length) == 0)
  10. n = (tab = resize()).length;
  11. // 如果hash位置节点p为null, 直接创建节点
  12. if ((p = tab[i = (n - 1) & hash]) == null)
  13. // 新建一个Node节点
  14. tab[i] = newNode(hash, key, value, null);
  15. else {
  16. // p不为null的情况,有三种情况:要找的节点为首节点p,p是树节点,p是链表节点。
  17. Node<K,V> e; K k;
  18. // 1.要找的节点和p的hash值相等且key值相同,把节点p赋值给e
  19. if (p.hash == hash &&
  20. ((k = p.key) == key || (key != null && key.equals(k))))
  21. e = p;
  22. // 2. 如果p是树节点,用红黑树的方法进行put
  23. else if (p instanceof TreeNode)
  24. e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
  25. // 3.如果p是链表节点
  26. else {
  27. for (int binCount = 0; ; ++binCount) {
  28. // 把下一个节点赋值给e,如果下一个节点为空,说明已经遍历到了末尾
  29. if ((e = p.next) == null) {
  30. // 如果没有找到元素的话,是在末尾进行添加。
  31. p.next = newNode(hash, key, value, null);
  32. // 如果binCount > 8 转换成红黑树,< 64 resize的操作在treeifyBin里面进行
  33. // TREEIFY_THRESHOLD -1 是因为binCount从0开始遍历,
  34. // 再加上当前新添加的节点, 最终判断是binCount > TREEIFY_THRESHOLD
  35. // 也就是链表已有8个节点,当前put第9个节点时进行树化
  36. if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
  37. // 树化或者扩容
  38. treeifyBin(tab, hash);
  39. // 已经遍历到尾部了,跳出循环
  40. break;
  41. }
  42. // 如果节点hash值相等且key值相同,跳出循环
  43. if (e.hash == hash &&
  44. ((k = e.key) == key || (key != null && key.equals(k))))
  45. break;
  46. // 没有找到元素,继续遍历,p = p.next
  47. p = e;
  48. }
  49. }
  50. // 找到了对应的元素,进行添加
  51. if (e != null) { // existing mapping for key
  52. // 取旧的值
  53. V oldValue = e.value;
  54. // onlyIfAbsent为false或者值本身不存在才进行赋值
  55. if (!onlyIfAbsent || oldValue == null)
  56. e.value = value;
  57. // 回调函数,用于linkedhashmap
  58. afterNodeAccess(e);
  59. // 返回旧值
  60. return oldValue;
  61. }
  62. }
  63. // 修改次数+1
  64. ++modCount;
  65. // 容量+1,判断是否超过容量阈值,进行resize扩容操作
  66. if (++size > threshold)
  67. resize();
  68. // 回调函数,用于linkedhashmap
  69. afterNodeInsertion(evict);
  70. return null;
  71. }
  72. // 将key的hashCode重新计算一个hash值
  73. static final int hash(Object key) {
  74. int h;
  75. return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
  76. }
  77. Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
  78. return new Node<>(hash, key, value, next);
  79. }
  80. // Create a tree bin node
  81. TreeNode<K,V> newTreeNode(int hash, K key, V value, Node<K,V> next) {
  82. return new TreeNode<>(hash, key, value, next);
  83. }

保证hash的散列随机性

hash & (n -1)保证了最终计算的下标下落在table下标0到n-1范围内,
那么还有一个问题,就是怎么保证他的散列随机性?
虽然你是在0到n-1范围内,但是如果你每次都结果一样,那样都hash冲突了,会退化成链表。
所以呢这个就要求我们的计算hashCode呢这个算法要随机。
除此之外呢,还有一个点,因为hash表大小通常在2的16次方内,对应下标0到65535,16位
而我们的hashCode呢是int值,4个字节,32位。
那么我们进行hash & (n -1)时,假设你n的大小基本只有16位以下的话,
那么这个&操作大部分计算时都是丢弃了高位的16位,保留了低的16位,
为了把高位的16位也一起用上,hashCode转换为hash值的代码如下:

  1. static final int hash(Object key) {
  2. int h;
  3. // 保留高16位,高16位和低16位进行异或的结果作为低16位,增加散列均匀性
  4. return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
  5. }

保留高16位,低16位变成高16位和低16位的异或结果,增加了随机性。

根据key查找value的过程(get函数)

  1. public V get(Object key) {
  2. Node<K,V> e;
  3. // 元素为null返回null,不为null返回value
  4. return (e = getNode(hash(key), key)) == null ? null : e.value;
  5. }
  6. final Node<K,V> getNode(int hash, Object key) {
  7. Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
  8. // table不为null,且hash的节点不为null
  9. if ((tab = table) != null && (n = tab.length) > 0 &&
  10. (first = tab[(n - 1) & hash]) != null) {
  11. // 检查查找的节点是不是首节点,需要hash值相等且key值也相同
  12. if (first.hash == hash && // always check first node
  13. ((k = first.key) == key || (key != null && key.equals(k))))
  14. return first;
  15. // 不是首节点且有后继节点,要么是树节点要么是链表
  16. if ((e = first.next) != null) {
  17. // 是树节点
  18. if (first instanceof TreeNode)
  19. return ((TreeNode<K,V>)first).getTreeNode(hash, key);
  20. do {
  21. // 是链表,进行循环比对key值,需要hash值相等且key值也相同
  22. if (e.hash == hash &&
  23. ((k = e.key) == key || (key != null && key.equals(k))))
  24. return e;
  25. } while ((e = e.next) != null);
  26. }
  27. }
  28. return null;
  29. }

移除元素的过程 (remove函数)

下面是HashMap移除一个元素的过程:

  1. public V remove(Object key) {
  2. Node<K,V> e;
  3. // 返回移除元素的value,元素不存在时返回null
  4. return (e = removeNode(hash(key), key, null, false, true)) == null ?
  5. null : e.value;
  6. }
  7. /**
  8. *
  9. * @param hash hash for key
  10. * @param key the key
  11. * @param value the value to match if matchValue, else ignored
  12. * @param matchValue if true only remove if value is equal
  13. * @param movable if false do not move other nodes while removing
  14. * @return the node, or null if none
  15. */
  16. final Node<K,V> removeNode(int hash, Object key, Object value,
  17. boolean matchValue, boolean movable) {
  18. Node<K,V>[] tab; Node<K,V> p; int n, index;
  19. // 判断table不是null且容量大于0
  20. if ((tab = table) != null && (n = tab.length) > 0 &&
  21. // hash值目标位置不为null,赋值给Node p
  22. (p = tab[index = (n - 1) & hash]) != null) {
  23. Node<K,V> node = null, e; K k; V v;
  24. // 判断首节点p是否跟要查找的hash值相等且key相同
  25. if (p.hash == hash &&
  26. ((k = p.key) == key || (key != null && key.equals(k))))
  27. // 把首节点p赋值给node
  28. node = p;
  29. // 有子节点存在,结构可能是树或者链表
  30. else if ((e = p.next) != null) {
  31. // 首节点是树节点,调用getTreeNode获取Node,之后赋值给node
  32. if (p instanceof TreeNode)
  33. node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
  34. else {
  35. // 循环查找链表
  36. do {
  37. // 判断e和p节点hash值相等且key相同,e赋值给node
  38. if (e.hash == hash &&
  39. ((k = e.key) == key ||
  40. (key != null && key.equals(k)))) {
  41. node = e;
  42. break;
  43. }
  44. // 遍历e的同时,把e赋值给p,如果node最后存在,p最终为node的上一个节点
  45. // 如果node不存在,p为链表的末尾节点
  46. p = e;
  47. } while ((e = e.next) != null);
  48. }
  49. }
  50. // 最终查找到的节点node不为null,并且matchValue为false,或者value值相等
  51. if (node != null && (!matchValue || (v = node.value) == value ||
  52. (value != null && value.equals(v)))) {
  53. // 是树节点,可能会移动节点的位置
  54. if (node instanceof TreeNode)
  55. ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
  56. // node = p的情况,node是首节点,将首节点tab[index]指向node.next
  57. else if (node == p)
  58. tab[index] = node.next;
  59. // 在链表中的子节点,p是node的上一个节点,将p.next指向node.next,跳过了node节点
  60. else
  61. p.next = node.next;
  62. // 修改次数+1
  63. ++modCount;
  64. // 大小-1
  65. --size;
  66. // 钩子函数,为linkedhashmap打造
  67. afterNodeRemoval(node);
  68. return node;
  69. }
  70. }
  71. return null;
  72. }

扩容的过程(resize函数)

扩容是HashMap里面重要的机制,下面是扩容的源码:

  1. /**
  2. * 扩容为表大小的两倍,如果表没有初始化,则扩容为初始容量,
  3. * 另外,使用的是二次幂扩容,扩容后bin的索引和原来相同,或者偏移2次幂。
  4. *
  5. */
  6. final Node<K,V>[] resize() {
  7. // 把旧表table赋值给oldTab
  8. Node<K,V>[] oldTab = table;
  9. // 获取oldTab的容量
  10. int oldCap = (oldTab == null) ? 0 : oldTab.length;
  11. // 获取旧的扩容阈值threshold赋值给oldThr
  12. int oldThr = threshold;
  13. // 初始化新的容量和阈值为0
  14. int newCap, newThr = 0;
  15. // 如果旧表容量>0
  16. if (oldCap > 0)
  17. {
  18. // 旧表大于等于容量2^30,这里应该只会走到等于,不可能超过
  19. if (oldCap >= MAXIMUM_CAPACITY) {
  20. // 把阈值改为int的最大值,2^31-1
  21. // 这时阈值超过了最大容量2^30,后面table将永远不会进行resize
  22. threshold = Integer.MAX_VALUE;
  23. // 不能再扩容了,直接返回旧表
  24. return oldTab;
  25. }
  26. // 新容量赋值为旧容量的2倍并且小于最大容量 且 旧容量 >= 16
  27. else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
  28. oldCap >= DEFAULT_INITIAL_CAPACITY)
  29. // 默认新的阈值是旧阈值的2倍
  30. // 如果newCap刚好等于MAXIMUM_CAPACITY,
  31. // 那么新阈值不是原来的2倍,而是Integer.MAX_VALUE
  32. // 如果oldCap小于16,新阈值是newCap * loadFactor
  33. newThr = oldThr << 1; // double threshold
  34. }
  35. // 注意这里是else if, 旧表容量 = 0 且旧表阈值 > 0, 新表容量设置为旧表阈值
  36. else if (oldThr > 0) // initial capacity was placed in threshold
  37. // 表未初始化,容量设置为初始的阈值
  38. newCap = oldThr;
  39. else { // zero initial threshold signifies using defaults
  40. // 这里说明旧表阈值为0,容量也是0,设置新表容量默认值16
  41. newCap = DEFAULT_INITIAL_CAPACITY;
  42. // 设置默认容量的阈值
  43. newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
  44. }
  45. // 新表阈值还没赋值,说明上面的判断都没走进去
  46. // 当旧表容量 < 16;或者容量刚好是最大值的一半时;
  47. // 或者旧表容量 = 0 且旧表阈值大于0,也就是初始化的时候
  48. if (newThr == 0) {
  49. // 根据容量和负载因子计算阈值
  50. float ft = (float)newCap * loadFactor;
  51. // 容量和阈值都小于最大容量时才赋值为ft,否则直接为Integer.MAX_VALUE
  52. // 如果是newCap刚好为MAXIMUM_CAPACITY,那么阈值是Integer.MAX_VALUE
  53. newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
  54. (int)ft : Integer.MAX_VALUE);
  55. }
  56. // 把新的阈值设置到当前table
  57. threshold = newThr;
  58. @SuppressWarnings({"rawtypes","unchecked"})
  59. // 根据新的容量创建新的table
  60. Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
  61. // 把newTab赋值给当前table
  62. table = newTab;
  63. // 旧table不为空,进行元素转移
  64. if (oldTab != null) {
  65. // for遍历旧表
  66. for (int j = 0; j < oldCap; ++j) {
  67. Node<K,V> e;
  68. // 索引位置不为null,同时将该Node赋值给e
  69. if ((e = oldTab[j]) != null) {
  70. // 将索引位置为null
  71. oldTab[j] = null;
  72. // 如果e没有后继节点,直接重新根据hash&n-1得到新下标
  73. if (e.next == null)
  74. newTab[e.hash & (newCap - 1)] = e;
  75. // 有后继节点且是树节点
  76. else if (e instanceof TreeNode)
  77. // 是红黑树,调用红黑树的拆解方法
  78. ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
  79. else { // preserve order
  80. // 新的位置有两种可能:原位置,原位置+老数组长度
  81. // 把原链表拆成两个链表,然后再分别插入到新数组的两个位置上
  82. Node<K,V> loHead = null, loTail = null;
  83. Node<K,V> hiHead = null, hiTail = null;
  84. Node<K,V> next;
  85. do {
  86. // 遍历老链表,判断新增判定位是不是0进行分类
  87. next = e.next;
  88. // (e.hash & oldCap) == 0,新位置不变,记为低位区链表 lo开头-low
  89. if ((e.hash & oldCap) == 0) {
  90. if (loTail == null)
  91. loHead = e;
  92. else
  93. loTail.next = e;
  94. loTail = e;
  95. }
  96. // (e.hash & oldCap) != 0,新位置为原来位置+数组长度,
  97. // 记为高位区链表 hi开头-high
  98. else {
  99. if (hiTail == null)
  100. hiHead = e;
  101. else
  102. hiTail.next = e;
  103. hiTail = e;
  104. }
  105. } while ((e = next) != null);
  106. // 两个链表分别赋值给新的table
  107. if (loTail != null) {
  108. loTail.next = null;
  109. newTab[j] = loHead;
  110. }
  111. if (hiTail != null) {
  112. hiTail.next = null;
  113. newTab[j + oldCap] = hiHead;
  114. }
  115. }
  116. }
  117. }
  118. }
  119. // 返回新的table
  120. return newTab;
  121. }

这里我们看到旧链表的节点会根据(e.hash & oldCap) == 0 进行分类,
(e.hash & oldCap) == 0时,新下标与原下标相同。
(e.hash & oldCap) != 0时,新下标 = 原下标 + 旧表长度。
下面详细分析一下这个表达式。

e.hash & oldCap==0时,新下标 = 旧下标

设旧的下标为x,新的下标为y。证明当e.hash & oldCap == 0时,x = y。

在旧table中,计算下标的公式为 e.hash & (oldCap - 1) = x ,由于 oldCap = 2^n,可知 oldCap - 1 的二进制形式为 n 个 1。
e.hash & (oldCap - 1) 相当于取 e.hash 的低 n 位的值,该值为 x。

在新table中,容量上升为原来的2倍,所以他的公式为 e.hash & (2oldCap - 1) = y,由于 oldCap = 2^n,可知 2oldCap - 1 的二进制形式为 n + 1 个 1。
e.hash & (2oldCap - 1) 相当于取 e.hash 的低 n + 1 位的值,该值为 y。

2^n表示形式为第n + 1位是1,后面全0,当 e.hash & oldCap = e.hash & 2^n = 0 时,表示e.hash 的第 n + 1 位为 0,所以低 n 位的值与低 n +1 位的值是一样的,即 x = y。
例: 0 & 111 与 0 & 1111相等

e.hash & oldCap != 0 时,新下标 = 旧下标 + 旧数组长度

设旧的下标为x,新的下标为y。证明当e.hash & oldCap != 0时,y = x + oldCap。

e.hash & (oldCap - 1) = x ,oldCap = 2^n,x等于取e.hash低n位的值。
e.hash & (2oldCap - 1) = y ,oldCap = 2^n,y等于取e.hash低n+1位的值。
oldCap = 2^n,第 n + 1 位为 1,低 n 位全为 0。

当 e.hash & oldCap != 0 时,由于 oldCap = 2^n,说明 e.hash 的第 n + 1 位不是 0 ,而是 1。

当 e.hash 的第 n + 1 位为 1,且e.hash的低 n + 1 位的值为 y,低 n 位的值为 x,此时 y = x + oldCap。
例:1 = 1000 +

总结

  1. 扩容是一个特别耗性能的操作,所以当程序员在使用HashMap的时候,估算map的大小,初始化的时候给一个大致的数值,避免map进行频繁的扩容。
  2. 负载因子是可以修改的,也可以大于1,但是建议不要轻易修改,除非情况非常特殊。
  3. HashMap是线程不安全的,不要在并发的环境中同时操作HashMap,建议使用ConcurrentHashMap。
  4. JDK1.8引入红黑树大程度优化了HashMap的性能。