背景说明
生产环境中的问题
- 生产环境发生了内存溢出该如何处理?
- 生产环境应该给服务器分配多少内存合适?
- 如何对垃圾回收器的性能进行调优?
- 生产环境CPU负载飙高该如何处理?
- 生产环境应该给应用分配多少线程合适?
- 不加log,如何确定请求是否执行了某一行代码?
-
为什么要调优
防止出现OOM
- 解决OOM
-
不同阶段的考虑
上线前
- 项目运行阶段
- 线上出现OOM
调优概述
监控的依据
Java性能优化的步骤
1、性能监控(发现问题)
一种以非强行或者入侵的方式来收集或查看应用运营性能数据的活动。监控通常是指一种在生产、质量评估或者开发环境下实施的带有预防或者主动性的活动。当应用相关干系人指出性能问题却没有提供足够多的线索时,首先我们需要进行性能监控,随后是性能分析。
- GC频繁
- cpu load过高
- OOM
- 内存泄露
- 死锁
-
2、性能分析(排查问题)
一种以侵入的方式收集运行性能数据的活动,它会影响应用的吞吐量或响应性。性能分析是指针对性能问题的答复结果,关注的范围通常比性能监控更加集中。性能分析很少在生产环境下进行,通常是在质量评估、系统测试或者开发环境下进行,是性能监控之后的步骤。
打印GC日志,通过GCviewer或http://gceasy.io来分析日志
- 灵活运用命令行工具,jstack,jmap,jinfo等
- dump出堆文件,使用内存分析工具分析文件
- 使用阿里Arthas,或jconsole,JVisualVM来实时查看JVM状态
-
3、性能调优(解决问题)
一种为了改善应用响应性或吞吐量而更改参数、源代码、属性配置的活动,性能调优是在性能监控、性能分析之后的活动。
适当增加内存,根据业务背景选择垃圾回收器
- 优化代码,控制代码使用
- 增加机器,分散节点压力
- 合理设置线程池线程数量
- 使用中间件提高程序效率,比如缓存,消息队列等
- 其它…
性能评价/测试指标
- 停顿时间(或响应时间)
提交请求和返回该请求的响应之间使用的时间,一般比较关注平均响应时间。常用操作的响应时间列表
操作 | 响应时间 |
---|---|
打开一个站点 | 几秒 |
数据库查询一条记录(有索引) | 十几毫秒 |
机械磁盘一次寻址定位 | 4毫秒 |
从机械磁盘顺序读取1M数据 | 2毫秒 |
从SSD磁盘顺序读取1M数据 | 0.3毫秒 |
从远程分支换成Redis读取一个数据 | 0.5毫秒 |
从内存读取1M数据 | 十几毫秒 |
Java程序本地方法调用 | 几微秒 |
网络传输2Kb数据 | 1微秒 |
在垃圾回收环节:
暂停时间:执行垃圾收集时,程序的工作线程被暂停的时间。
- 吞吐量
对单位时间内完成的工作量(请求)的量度。在GC中,运行用户代码的时间占总运行时间的比例(总运行时间:程序的运行时间+内存回收的时间),吞吐量为1-1/(1+n)。-XX:GCTimeRatio=n
- 并发数
同一时刻,对服务器有实际交互的请求数
- 内存占用
Java堆区所占的内存大小
- 相互间的关系