ArrayList 是基于数组实现的,继承了 AbstractList 抽象类,实现了 List 接口,支持动态扩容,适用于随机访问的场景,并且在大小不经常变化的情况下,ArrayList 要比 LinkedList 节省空间,所以是一个优先选项。主要有以下几个关键点:

  • 可包含空元素 null
  • size、isEmpty、get、set、iterator 等操作的时间复杂度为 O(1),其它操作为线性时间
  • 非线程安全

初始化

在 JDK 7 中,ArrayList 的默认构造方法会将初始化容量设为 10,不管这个大小合不合适,数组需不需要。这看似不起眼的大小为 10 的数组,在高频率的使用环境下,也是一个不小的负担。

  1. public ArrayList() {
  2. this.elementData = new Object[10];
  3. }

因此在 JDK 8 中,ArrayList 的默认构造方法做了一个小变动,改动后的默认构造方法,不再分配内部数组,而是使用了一个空数组。要等到真正需要存储数据的时候,才为这个数组分配空间。

  1. public ArrayList() {
  2. this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
  3. }

这个延迟初始化的操作,经测试报告统计,改动后的内存的使用减少了 13%,平均响应时间提高了 16%。这个延迟初始化的思想后来也被运用到了 HashMap 中,在 JDK 11 以后,也将 HashMap 的默认构造方法进行了延迟初始化,不再默认分配 16 个元素空间了。

成员属性

在 JDK 8 中,ArrayList 的成员属性主要有以下成员:

  1. public class ArrayList<E> extends AbstractList<E>
  2. implements List<E>, RandomAccess, Cloneable, java.io.Serializable {
  3. // 默认容量大小
  4. private static final int DEFAULT_CAPACITY = 10;
  5. // 用于ArrayList空实例的共享空数组(指定了容量,但是容量为0)
  6. private static final Object[] EMPTY_ELEMENTDATA = {};
  7. // 用于ArrayList空实例的共享空数组(默认构造方法)
  8. private static final Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {};
  9. // 真正存储ArrayList中的元素的数组
  10. transient Object[] elementData;
  11. // 实际存储数组元素的个数
  12. private int size;
  13. // AbstractList类的属性,表示elementData在结构上被修改的次数,每次add或remove都会加1
  14. protected transient int modCount = 0;
  15. // 数组可扩容的最大长度
  16. private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;
  17. ......
  18. }

EMPTY_ELEMENTDATA 和 DEFAULTCAPACITY_EMPTY_ELEMENTDATA 两个空数组主要用于不同的初始化场景。前者适用在指定了初始化容量(initialCapacity == 0)的场景下,后者适用在未指定任何参数的场景下。在扩容时针对这两种类型的空数组,其扩容策略是不一样的。

提供初始容量的构造方法:

  1. public ArrayList(int initialCapacity) {
  2. if (initialCapacity > 0) {
  3. this.elementData = new Object[initialCapacity];
  4. } else if (initialCapacity == 0) {
  5. // 如果容量为0,则都指向同一个共享的空数组,以减少内存占用
  6. this.elementData = EMPTY_ELEMENTDATA;
  7. } else {
  8. throw new IllegalArgumentException("Illegal Capacity: "+ initialCapacity);
  9. }
  10. }

无参构造方法,默认为空数组:

  1. public ArrayList() {
  2. // 此数组和上面的EMPTY_ELEMENTDATA区分开来,用来在添加第一个元素的时候,确定要扩容多少
  3. this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
  4. }

通过一个集合来初始化:

  1. public ArrayList(Collection<? extends E> c) {
  2. elementData = c.toArray();
  3. if ((size = elementData.length) != 0) {
  4. if (elementData.getClass() != Object[].class)
  5. elementData = Arrays.copyOf(elementData, size, Object[].class);
  6. } else {
  7. // replace with empty array.
  8. this.elementData = EMPTY_ELEMENTDATA;
  9. }
  10. }

可以看到,这三种方式针对空数组的赋值是不同的,具体区别在 add 方法里解析。

ArrayList 内部还维护了一个 modCount 属性用来记录 ArrayList 结构发生变化的次数,如果在执行一个动作前后 modCount 的值不相等,说明这个 ArrayList 被其它线程修改了。如果在创建迭代器之后的任何时候以任何方式修改了列表(增加、删除、修改),除了通过迭代器自己的 remove 或 add 方法,迭代器将抛出 ConcurrentModificationException 异常。

需要注意的是:这里异常的抛出条件是检测到 modCount != expectedmodCount,如果并发场景下一个线程修改了 modCount 值时另一个线程又 “及时地” 修改了 expectedmodCount 值,则异常不会抛出。所以不能依赖于这个异常来检测程序的正确性。

方法

  1. // 将此ArrayList实例的容量调整为列表的当前大小。使用此操作来最大程度地减少ArrayList实例的存储
  2. public void trimToSize()
  3. public int size()
  4. public boolean isEmpty()
  5. public boolean contains(Object o)
  6. public void clear()
  7. // 返回指定元素在此列表中首次出现的索引,如果此列表不包含该元素则返回-1
  8. public int indexOf(Object o)
  9. // 返回指定元素在此列表中最后一次出现的索引,如果此列表不包含该元素则返回-1
  10. public int lastIndexOf(Object o)
  11. public Object[] toArray()
  12. public <T> T[] toArray(T[] a)
  13. public E get(int index)
  14. // 用指定的元素替换此列表中指定位置的元素
  15. public E set(int index, E element)
  16. public boolean add(E e)
  17. // 将指定元素插入此列表中的指定位置。将当前在该位置的元素(如果有)和任何后续元素右移
  18. public void add(int index, E element)
  19. // 将指定集合中的所有元素追加到此列表的末尾
  20. public boolean addAll(Collection<? extends E> c)
  21. // 从指定位置开始,将指定集合中的所有元素插入此列表
  22. public boolean addAll(int index, Collection<? extends E> c)
  23. public E remove(int index)
  24. public boolean remove(Object o)
  25. // 从此列表中删除指定集合中包含的所有元素
  26. public boolean removeAll(Collection<?> c)
  27. // 仅保留此列表中包含在指定集合中的元素。换句话说,从该列表中删除所有未包含在指定集合中的元素
  28. public boolean retainAll(Collection<?> c)
  29. public ListIterator<E> listIterator(int index)
  30. public ListIterator<E> listIterator()
  31. public Iterator<E> iterator()
  32. public Spliterator<E> spliterator()
  33. // 返回此列表在指定的fromIndex(包括)和toIndex(不包括)之间的视图
  34. public List<E> subList(int fromIndex, int toIndex)
  35. // 循环列表元素,对其执行action
  36. public void forEach(Consumer<? super E> action)
  37. // 删除此集合中满足给定谓词的所有元素
  38. public boolean removeIf(Predicate<? super E> filter)
  39. //
  40. public void replaceAll(UnaryOperator<E> operator)
  41. // 根据指定的Comparator策略对该列表进行排序
  42. public void sort(Comparator<? super E> c)

1. add

  1. public boolean add(E e) {
  2. ensureCapacityInternal(size + 1); // Increments modCount!!
  3. elementData[size++] = e;
  4. return true;
  5. }
  6. public boolean addAll(Collection<? extends E> c) {
  7. Object[] a = c.toArray();
  8. int numNew = a.length;
  9. ensureCapacityInternal(size + numNew); // Increments modCount
  10. System.arraycopy(a, 0, elementData, size, numNew);
  11. size += numNew;
  12. return numNew != 0;
  13. }

添加元素时主要进行了两步操作,通过 ensureCapacityInternal() 方法来保证容量足够使用,添加单元素时 size+1 即为最少需要的空间大小,批量添加时则为 size + numNew。然后对 elementData 数组赋值。

ensureCapacityInternal 方法内部会根据传入的最小所需容量进行扩容。

  1. private void ensureCapacityInternal(int minCapacity) {
  2. ensureExplicitCapacity(calculateCapacity(elementData, minCapacity));
  3. }
  4. // 计算最少需要的容量
  5. private static int calculateCapacity(Object[] elementData, int minCapacity) {
  6. if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
  7. // 默认的空数组实例第一次添加元素时,使用默认的容量大小与minCapacity的最大值
  8. // 如果使用new ArrayList()创建,则默认容量为DEFAULT_CAPACITY=10
  9. return Math.max(DEFAULT_CAPACITY, minCapacity);
  10. }
  11. return minCapacity;
  12. }
  13. private void ensureExplicitCapacity(int minCapacity) {
  14. // 修改次数+1,用于fail-fast处理
  15. modCount++;
  16. // 如果需要的容量大于elementData的长度,则进行扩容
  17. if (minCapacity - elementData.length > 0)
  18. grow(minCapacity);
  19. }

在 calculateCapacity 方法处,会先判断当前实例数组是否是 DEFAULTCAPACITY_EMPTY_ELEMENTDATA 实例,这个数组在通过 new ArrayList() 构造实例时被赋值,用来区别于 EMPTY_ELEMENTDATA ,在第一次进行数组操作的时候会进行判断。

要注意通过这几种构造函数创建的 ArrayList 实例后续在扩容机制上的不同!

  1. private void grow(int minCapacity) {
  2. int oldCapacity = elementData.length;
  3. // 扩容为原来的 1.5倍
  4. int newCapacity = oldCapacity + (oldCapacity >> 1);
  5. // 与最小可用容量比较,取两者最大值
  6. if (newCapacity - minCapacity < 0)
  7. newCapacity = minCapacity;
  8. if (newCapacity - MAX_ARRAY_SIZE > 0)
  9. newCapacity = hugeCapacity(minCapacity);
  10. elementData = Arrays.copyOf(elementData, newCapacity);
  11. }
  12. private static int hugeCapacity(int minCapacity) {
  13. // 上面在相加的时候可能产生整型溢出
  14. if (minCapacity < 0)
  15. throw new OutOfMemoryError();
  16. return (minCapacity > MAX_ARRAY_SIZE) ? Integer.MAX_VALUE : MAX_ARRAY_SIZE;
  17. }

进行扩容时,会把标准扩容容量和最小可用容量进行对比,取两者较大值 ,也就是旧容量的 1.5 倍与最小可用容量之间的较大值。最后调用 Arrays.copyOf 复制原数组,将 elementData 赋值为得到的新数组。由于数组复制代价较高,所以建议在创建 ArrayList 对象时就指定大概的容量大小,减少扩容操作的次数。

2. remove

删除指定下标的元素时,如果下标没有越界,则取出下标对应的值,如果是数组最后一个元素则将其置为空,否则将数组中该下标后面的元素都往前挪一位,需要挪的元素数量是 size - index - 1,时间复杂度为 O(n),所以删除元素的代价比较高。

  1. public E remove(int index) {
  2. // 检查下标是否在数组的长度范围内
  3. rangeCheck(index);
  4. modCount++;
  5. E oldValue = elementData(index);
  6. // 需要移动的元素数量
  7. int numMoved = size - index - 1;
  8. if (numMoved > 0)
  9. System.arraycopy(elementData, index+1, elementData, index, numMoved);
  10. elementData[--size] = null; // clear to let GC do its work
  11. return oldValue;
  12. }

删除第一个值为指定值的元素则使用 remove(Object o) 方法,参数 o 可以为 null,内部通过 fastRemove 来删除指定元素,其与 remove(int index) 几乎一样,只不过不返回被删除的元素。

  1. public boolean remove(Object o) {
  2. if (o == null) {
  3. for (int index = 0; index < size; index++)
  4. if (elementData[index] == null) {
  5. fastRemove(index);
  6. return true;
  7. }
  8. } else {
  9. for (int index = 0; index < size; index++)
  10. // 比较对象时依赖equals方法,因此类型变量E对应的类注意重写equlas方法
  11. if (o.equals(elementData[index])) {
  12. fastRemove(index);
  13. return true;
  14. }
  15. }
  16. return false;
  17. }
  18. private void fastRemove(int index) {
  19. modCount++;
  20. int numMoved = size - index - 1;
  21. if (numMoved > 0)
  22. System.arraycopy(elementData, index+1, elementData, index, numMoved);
  23. elementData[--size] = null; // clear to let GC do its work
  24. }

从上面的源码可以看出,ArrayList 的增删改查操作实质上就是对底层数组的操作,新增元素时需要对数组进行扩容操作,删除也需要对数组进行复制操作,所以 ArrayList 的新增和删除效率会非常低,但是相对的,得益于底层的数组结构,在进行查找和更改操作时,可以根据下标直接进行操作,只有 O(1) 的复杂度,因此在查找需求比较频繁的操作中,推荐使用 ArrayList,可以极大的增加操作效率,但是在增删比较频繁的时候,就需要考虑其他的数据结构了。

同时,要注意合理的使用 ArrayList 的构造方法,初始化时如果已经知道当前数据的大小,可以直接使用 ArrayList(int initialCapacity) 构造方法指定初始容量,这样可以避免在添加数据时频繁进行扩容降低性能,同时也可以避免 1.5 倍的扩容机制造成的空间浪费。

3. 遍历

ArrayList 支持三种遍历方式:

  • for 循环下标遍历
  • 迭代器(Iterator、ListIterator、Spliterator),其中 Spliterator 支持并行遍历
  • foreach 语句

其中,迭代器 Iterator 和 ListIterator 的主要区别如下:

  • ListIterator 有 add()、set() 方法,可以在遍历时更新 List 中的元素,而 Iterator 不能。

  • ListIterator 和 Iterator 都有 hasNext() 和 next() 方法,可以实现顺序向后遍历,但是 ListIterator 还有 hasPrevious() 和 previous() 方法,可以实现逆向遍历。

  • ListIterator 可以定位当前的索引位置,nextIndex() 和 previousIndex() 可以实现。

4. 排序

  1. List<String> strList = new ArrayList<String>(4);
  2. strList.add("1");
  3. strList.add("2");
  4. strList.add("3");
  5. // 可以使用以下三种排序方式
  6. Collections.sort(strList);
  7. Collections.sort(strList, String::compareTo);
  8. strList.sort(String::compareTo);

Collections.sort() 底层调用的是 Arrays.sort() 方法,具体的排序过程会根据数据类型、数据集大小等因素选择不同的排序算法:

  • 对于原始数据类型,目前使用的是双轴快速排序(Dual-Pivot QuickSort),是一种改进的快速排序算法,早期版本是相对传统的快速排序。

  • 对于对象数据类型,目前则是使用 TimSort,思想上也是一种归并和二分插入排序(binarySort)结合的优化排序算法。TimSort 并不是 Java 的独创,简单说它的思路是查找数据集中已经排好序的分区,然后合并这些分区来达到排序的目的。

  • 另外 Java 8 引入了并行排序算法(parallelSort),这是为了充分利用现代多核处理器的计算能力,底层实现基于 fork-join 框架,当处理的数据集比较小时,差距不明显,甚至还表现差一点;但当数据集增长到数万或百万以上时,提高就非常大了,具体还是取决于处理器和系统环境。

5. 集合转数组

  1. public Object[] toArray() {
  2. // 直接复制ArrayList的elementData
  3. return Arrays.copyOf(elementData, size);
  4. }
  5. public <T> T[] toArray(T[] a) {
  6. if (a.length < size)
  7. // 利用反射生成特定类型的数组并复制
  8. return (T[]) Arrays.copyOf(elementData, size, a.getClass());
  9. System.arraycopy(elementData, 0, a, 0, size);
  10. if (a.length > size)
  11. a[size] = null;
  12. return a;
  13. }

6. 数组转集合

  1. // 另外,除了根据ArrayList转化成数组,同样可以根据Arrays的asList将数组转换成List
  2. // 备注:Arrays是数组操作的util类,可以进行排序、查找、复制、遍历等
  3. List<String> strList = Arrays.asList("1", "2", "3");

Arrays 类是数组操作的工具类,它提供了 asList() 方法用来将数组转换成 List 对象。但是在使用时需要注意:asList() 方法返回的 List 是 Arrays 类的私有静态内部类 ArrayList,它跟 java.util.ArrayList 不同,它没有重写 java.util.AbstractList 的 remove、add 等方法,默认实现是直接抛 UnsupportedOperationException,因此如果我们直接操作 asList 方法返回的集合会报错。

序列化

ArrayList 有两个属性被 transient 关键字修饰,当某个字段被声明为 transient 后,JDK 默认的序列化机制就会忽略该字段,反序列化后该字段会自动获得 0 或者 null 值。

  1. transient Object[] elementData;
  2. protected transient int modCount = 0;

那为什么最为重要的数组元素 elementData 要用 transient 修饰呢?

答案是:

ArrayList 不想用 JDK 默认的序列化机制来序列化 elementData 数组,因为默认机制会序列化整个数组,但并不是整个数组都存储实际元素。因此 ArrayList 重写了 readObject、writeObject 方法自定义了自己的序列化和反序列化策略。根据 size 序列化实际使用的元素,忽略数组中的其它位置,提高了效率并节省了空间。

  1. private void writeObject(java.io.ObjectOutputStream s) throws java.io.IOException{
  2. int expectedModCount = modCount;
  3. // 调用JDK默认的序列化策略,序列化其它的字段
  4. s.defaultWriteObject();
  5. // size为实际使用的长度,而不是容量
  6. s.writeInt(size);
  7. // 只序列化size元素
  8. for (int i=0; i<size; i++) {
  9. s.writeObject(elementData[i]);
  10. }
  11. if (modCount != expectedModCount) {
  12. throw new ConcurrentModificationException();
  13. }
  14. }
  15. private void readObject(java.io.ObjectInputStream s)
  16. throws java.io.IOException, ClassNotFoundException {
  17. elementData = EMPTY_ELEMENTDATA;
  18. // 调用JDK默认的反序列化机制,反序列化没有标记为static、transient的字段,包括size等
  19. s.defaultReadObject();
  20. s.readInt();
  21. if (size > 0) {
  22. int capacity = calculateCapacity(elementData, size);
  23. SharedSecrets.getJavaOISAccess().checkArray(s, Object[].class, capacity);
  24. // 数组扩容
  25. ensureCapacityInternal(size);
  26. Object[] a = elementData;
  27. for (int i=0; i<size; i++) {
  28. a[i] = s.readObject();
  29. }
  30. }
  31. }

Collections

Collections 是 JDK 提供的一个工具类,包含了很多方便、实用的静态方法,具体如下:

排序:

  1. public static <T extends Comparable<? super T>> void sort(List<T> list)
  2. public static <T> void sort(List<T> list, Comparator<? super T> c)
  3. // 二分查找,注意集合必须是有序的
  4. public static <T> int binarySearch(List<? extends Comparable<? super T>> list, T key)
  5. public static <T> int binarySearch(List<? extends T> list, T key, Comparator<? super T> c)
  6. // 反转列表
  7. public static void reverse(List<?> list)
  8. // 随机对列表元素重排序
  9. public static void shuffle(List<?> list)
  10. // 最大值
  11. public static <T extends Object & Comparable<? super T>> T max(Collection<? extends T> coll)
  12. public static <T> T max(Collection<? extends T> coll, Comparator<? super T> comp)
  13. // 最小值
  14. public static <T extends Object & Comparable<? super T>> T min(Collection<? extends T> coll)
  15. public static <T> T min(Collection<? extends T> coll, Comparator<? super T> comp)

不可修改试图:
从 Java 8 开始,Java 核心类库通过 Collections 类提供了一系列的生成不可更改的集合的方法。这些方法极大地减轻了集合的共享和维护问题。
image.png

空集合:
image.png

List.subList

我们通常会使用 List.subList 方法对 List 做切片处理,即取出其中部分元素构成一个新的 List。但我们要注意 List.subList 返回的子 List 不是一个普通的 ArrayList。这个子 List 可以认为是原始 List 的视图,它会和原始 List 相互影响。如果不注意,很可能会因此产生 OOM 问题。

如下代码示例:

  1. private static List<List<Integer>> data = new ArrayList<>();
  2. private static void oom() {
  3. for (int i = 0; i < 1000; i++) {
  4. List<Integer> rawList = IntStream.rangeClosed(1, 100000).boxed().collect(Collectors.toList());
  5. data.add(rawList.subList(0, 1));
  6. }
  7. }

你可能会觉得,这个 data 变量里面最终保存的只是 1000 个具有 1 个元素的 List,不会占用很大空间,但程序运行不久就出现了 OOM。原因是循环中的 1000 个具有 10 万个元素的 List 始终得不到回收,因为它始终被 subList 方法返回的 List 强引用。

我们分析下 ArrayList 的源码,看看为什么会是这样。

  1. public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable {
  2. public List<E> subList(int fromIndex, int toIndex) {
  3. subListRangeCheck(fromIndex, toIndex, size);
  4. return new SubList(this, offset, fromIndex, toIndex);
  5. }
  6. private class SubList extends AbstractList<E> implements RandomAccess {
  7. private final AbstractList<E> parent;
  8. private final int parentOffset;
  9. private final int offset;
  10. int size;
  11. SubList(AbstractList<E> parent,
  12. int offset, int fromIndex, int toIndex) {
  13. this.parent = parent;
  14. this.parentOffset = fromIndex;
  15. this.offset = offset + fromIndex;
  16. this.size = toIndex - fromIndex;
  17. this.modCount = ArrayList.this.modCount;
  18. }
  19. ......
  20. }
  21. }

可以看到,获得的子 List 其实是内部类 SubList 的实例,并不是普通的 ArrayList 实例,只是在初始化的时候传入了 this,这个 SubList 中的 parent 字段就是原始的 List。

SubList 初始化时并没有把原始 List 中的元素复制到独立的变量中保存。我们可以认为 SubList 是原始 List 的视图而不是独立的 List。双方对元素的修改会相互影响,而且 SubList 强引用了原始的 List,所以大量保存这样的 SubList 会导致 OOM。