目标:1. 要了解有什么垃圾回收器,他们各自的特点是什么?

  1. 要调试一遍这种垃圾回收器,观察堆栈的变化
  2. 要了解这些垃圾回收器最佳的应用场景
  3. 要了解我们平常用的垃圾回收器以及可能会遇到的问题
  4. 每一种垃圾回收器在什么情况下会触发回收,minior GC,fullGC

首先,垃圾回收器主要的回收区域就是堆,那什么是垃圾?怎么判定他是不是垃圾,是否可以回收?

所谓“垃圾”,就是指所有不再存活的对象。常见的判断是否存活有两种方法:引用计数法和可达性分析

引用计数器

为每一个创建的对象分配一个引用计数器,用来存储该对象被引用的个数。当该个数为零,意味着没有人再使用这个对象,可以认为“对象死亡”。
问题? 这种方法,一旦这个对象被引用过,就不会消亡吗?
当两个对象互相引用,即时它俩都不被外界任何东西引用,它俩的计数都不为零,因此永远不会被回收。而实际上对于开发者而言,这两个对象已经完全没有用处了。
因此,Java 里没有采用这样的方案来判定对象的“存活性”。

可达性分析

这种分析的方法就是,把引用的对象当做一棵树,如果没有被引用的对象,就是不可达的对象,可以将他回收。

GC Roots 究竟指谁呢?

我们可以猜测,GC Roots 本身一定是可达的,这样从它们出发遍历到的对象才能保证一定可达。那么,Java 里有哪些对象是一定可达呢?主要有以下四种:

  • 虚拟机栈(帧栈中的本地变量表)中引用的对象。
  • 方法区中静态属性引用的对象。
  • 方法区中常量引用的对象。
  • 本地方法栈中JNI引用的对象。

    GC的算法

    标记清理法

    第一步,所谓“标记”就是利用可达性遍历堆内存,把“存活”对象和“垃圾”对象进行标记,得到的结果如上图; 第二步,既然“垃圾”已经标记好了,那我们再遍历一遍,把所有“垃圾”对象所占的空间直接清空即可。
    image.png
    缺点: 标记和清理过程都需要去遍历标记,这样的时间复杂度都是o(n),清除会产生内存碎片
    问题:那为什么还要用这种方式去做?他除了简单还有什么优点?

标记整理法

其实就是标记清理法的优化,为了解决标记整理时产生内存碎片的问题。主要思想是:把要回收的内存整理到一起,这样就没有内存碎片了。
这两种方案适合存活对象多,垃圾少的情况,它只需要清理掉少量的垃圾,然后挪动下存活对象就可以了。
一般用于老生代的垃圾回收

复制算法

这种方法比较粗暴,直接把堆内存分成两部分,一段时间内只允许在其中一块内存上进行分配,当这块内存被分配完后,则执行垃圾回收,把所有存活对象全部复制到另一块内存上,当前内存则直接全部清空。
image.png
起初时只使用上面部分的内存,直到内存使用完毕,才进行垃圾回收,把所有存活对象搬到下半部分,并把上半部分进行清空。
这种做法不容易产生碎片,也简单粗暴;但是,它意味着你在一段时间内只能使用一部分的内存,超过这部分内存的话就意味着堆内存里频繁的复制清空
这种方案适合存活对象少,垃圾多的情况,这样在复制时就不需要复制多少对象过去,多数垃圾直接被清空处理。
一般用于新生代。

Java 的分代回收机制

  • 新生代:存活对象少、垃圾多,一般用复制算法
  • 老年代:存活对象多、垃圾少,一般用标记整理/标记清除

    Java 的堆结构

    一块 Java 堆空间一般分成三部分,这三部分用来存储三类数据:

  • 刚刚创建的对象。在代码运行时会持续不断地创造新的对象,这些新创建的对象会被统一放在一起。因为有很多局部变量等在新创建后很快会变成不可达的对象,快速死去,因此这块区域的特点是存活对象少,垃圾多。形象点描述这块区域为:新生代

  • 存活了一段时间的对象。这些对象早早就被创建了,而且一直活了下来。我们把这些存活时间较长的对象放在一起,它们的特点是存活对象多,垃圾少。形象点描述这块区域为:老年代
  • 永久存在的对象。比如一些静态文件,这些对象的特点是不需要垃圾回收,永远存活。形象点描述这块区域为:永久代。(不过在 Java 8 里已经把永久代删除了,把这块内存空间给了元空间,后续文章再讲解。)

也就是说,常规的 Java 堆至少包括了 新生代老年代 两块内存区域,而且这两块区域有很明显的特征:

有什么垃圾回收器呢?

image.png

Serial、ParNew、Parallel Scavenge用于新生代;
CMS、Serial Old、Paralled Old用于老年代。 并且他们相互之间以相对固定的组合使用(具体组合关系如上图)。G1是一个独立的收集器不依赖其他6种收集器。ZGC是目前JDK 11的实验收集器

Serial收集器

Serial,是单线程执行垃圾回收的。当需要执行垃圾回收时,程序会暂停一切手上的工作,然后单线程执行垃圾回收。(stop the world)
因为新生代的特点是对象存活率低,所以收集算法用的是复制算法,把新生代存活对象复制到老年代,复制的内容不多,性能较好。
image.png
单线程地好处就是减少上下文切换,减少系统资源的开销。但这种方式的缺点也很明显,在GC的过程中,会暂停程序的执行。若GC不是频繁发生,这或许是一个不错的选择,否则将会影响程序的执行性能。 对于新生代来说,区域比较小,停顿时间短,所以比较使用。
如果不需要频繁使用GC,实时性要求不高,可以忍受一定GC停顿时间,可以使用这种方式。

ParNew收集器

这个也是一个适用于新生代的收集器。是Serial的多线程版本,并且在参数、算法(同样是复制算法)上也完全和Serial相同。
image.png
还是有一定的停顿问题,只是处理垃圾回收器的时候,可以利用多线程加快垃圾处理的速度。
因为是多线程执行,所以在多CPU下,ParNew效果通常会比Serial好。但如果是单CPU则会因为线程的切换,性能反而更差。
使用场景: parNew还是会在收集垃圾的时候暂停所有用户线程,所以不需要频繁使用GC,实时性要求不高,可以忍受一定GC停顿时间,可以使用这种方式。再者是多cpu的环境下使用。

Parallel Scavenge收集器

新生代的收集器,同样用的是复制算法,也是并行多线程收集。与ParNew最大的不同,它关注的是垃圾回收的吞吐量。
这里的吞吐量指的是 总时间与垃圾回收时间的比例。这个比例越高,证明垃圾回收占整个程序运行的比例越小。

  • -XX:MaxGCPauseMillis,最大垃圾回收停顿时间。这个参数的原理是空间换时间,收集器会控制新生代的区域大小,从而尽可能保证回收少于这个最大停顿时间。简单的说就是回收的区域越小,那么耗费的时间也越小。
    所以这个参数并不是设置得越小越好。设太小的话,新生代空间会太小,从而更频繁的触发GC。
  • -XX:GCTimeRatio,垃圾回收时间与总时间占比。这个是吞吐量的倒数,原理和MaxGCPauseMillis相同。

    1. 因为Parallel Scavenge收集器关注的是吞吐量,所以当设置好以上参数的时候,同时不想设置各个区域大小(新生代,老年代等)。可以开启**-XX:UseAdaptiveSizePolicy**参数,让JVM监控收集的性能,动态调整这些区域大小参数。

Serial Old收集器

老年代的收集器,与Serial一样是单线程,不同的是算法用的是标记-整理(Mark-Compact)。
image.png
因为老年代里面对象的存活率高,如果依旧是用复制算法,需要复制的内容较多,性能较差。并且在极端情况下,当存活为100%时,没有办法用复制算法。所以需要用Mark-Compact,以有效地避免这些问题。

Parallel Old收集器

老年代的收集器,是Parallel Scavenge老年代的版本。其中的算法替换成Mark-Compact。
image.png

CMS收集器

CMS,Concurrent Mark Sweep,同样是老年代的收集器。它关注的是垃圾回收最短的停顿时间(低停顿),在老年代并不频繁GC的场景下,是比较适用的。
命名中用的是concurrent,而不是parallel,说明这个收集器是有与工作执行并发的能力的。MS则说明算法用的是Mark Sweep算法。
来看看具体地工作原理。CMS整个过程比之前的收集器要复杂,整个过程分为四步:

  • 初始标记(initial mark),单线程执行,需要“Stop The World”,但仅仅把GC Roots的直接关联可达的对象给标记一下,由于直接关联对象比较小,所以这里的速度非常快。
  • 并发标记(concurrent mark),对于初始标记过程所标记的初始标记对象,进行并发追踪标记,此时其他线程仍可以继续工作。此处时间较长,但不停顿。
  • 重新标记(remark),在并发标记的过程中,由于可能还会产生新的垃圾,所以此时需要重新标记新产生的垃圾。此处执行并行标记,与用户线程不并发,所以依然是“Stop The World”,时间比初始时间要长一点。
  • 并发清除(concurrent sweep),并发清除之前所标记的垃圾。其他用户线程仍可以工作,不需要停顿。

image.png
由于CMS以上特性,缺点也是比较明显的,

  • Mark Sweep算法会导致内存碎片比较多
  • CMS的并发能力依赖于CPU资源,所以在CPU数少和CPU资源紧张的情况下,性能较差
  • 并发清除阶段,用户线程依然在运行,所以依然会产生新的垃圾,此阶段的垃圾并不会再本次GC中回收,而放到下次。所以GC不能等待内存耗尽的时候才进行GC,这样的话会导致并发清除的时候,用户线程可以了利用的空间不足。所以这里会浪费一些内存空间给用户线程预留。

CMS三个明显的缺点:
(1)CMS收集器无法处理浮动垃圾,可能出现“Concurrent Mode Failure”失败而导致另一次Full GC的产生。在JDK1.5的默认设置下,CMS收集器当老年代使用了68%的空间后就会被激活。
(2)CMS是基于“标记-清除”算法实现的收集器,手机结束时会有大量空间碎片产生。空间碎片过多,可能会出现老年代还有很大空间剩余,但是无法找到足够大的连续空间来分配当前对象,不得不提前出发FullGC。
有人会觉得既然Mark Sweep会造成内存碎片,那么为什么不把算法换成Mark Compact呢?
答案其实很简答,因为当并发清除的时候,用Compact整理内存的话,原来的用户线程使用的内存还怎么用呢?要保证用户线程能继续执行,前提的它运行的资源不受影响嘛。Mark Compact更适合“Stop the World”这种场景下使用。

G1收集器

G1,Garbage First,在JDK 1.7版本正式启用,是当时最前沿的垃圾收集器。G1可以说是CMS的终极改进版,解决了CMS内存碎片、更多的内存空间登问题。虽然流程与CMS比较相似,但底层的原理已是完全不同。
高效益优先。G1会预测垃圾回收的停顿时间,原理是计算老年代对象的效益率,优先回收最大效益的对象。
堆内存结构的不同。以前的收集器分代是划分新生代、老年代、持久代等。
G1则是把内存分为多个大小相同的区域Region,每个Region拥有各自的分代属性,但这些分代不需要连续。
image.png
这样的分区可以有效避免内存碎片化问题。
为了解决这个问题,G1对于每个Region都维护一个Remembered Set,用于记录对象引用的情况。当GC发生的时候根据Remembered Set的引用情况去搜索。
两种GC模式

  • Young GC,关注于所有年轻代的Region,通过控制收集年轻代的Region个数,从而控制GC的回收时间。
  • Mixed GC,关注于所有年轻代的Region,并且加上通过预测计算最大收益的若干个老年代Region。

整体的执行流程:

  • 初始标记(initial mark),标记了从GC Root开始直接关联可达的对象。STW(Stop the World)执行。
  • 并发标记(concurrent marking),并发标记初始标记的对象,此时用户线程依然可以执行。
  • 最终标记(Remark),STW,标记再并发标记过程中产生的垃圾。
  • 筛选回收(Live Data Counting And Evacuation),评估标记垃圾,根据GC模式回收垃圾。STW执行。

image.png
下面给出配置回收器时,经常使用的参数:
-XX:+UseSerialGC:在新生代和老年代使用串行收集器
-XX:+UseParNewGC:在新生代使用并行收集器
-XX:+UseParallelGC :新生代使用并行回收收集器,更加关注吞吐量
-XX:+UseParallelOldGC:老年代使用并行回收收集器
-XX:ParallelGCThreads:设置用于垃圾回收的线程数
-XX:+UseConcMarkSweepGC:新生代使用并行收集器,老年代使用CMS+串行收集器
-XX:ParallelCMSThreads:设定CMS的线程数量
-XX:+UseG1GC:启用G1垃圾回收器