在 Go 中,通过撰写 Benchmark 函数可以很方便地对某个功能点进行性能检测。对于重要的函数,我们可以在 CI/CD 中添加相应的测试流程,当函数性能发生变化时能够及时感知。那问题来了,如何检测函数的性能变化?

换个说法,你编写了某功能函数但发现它运行很慢,需要对该函数进行优化,当你在谷歌搜索找到更好的实现方式,通过 Benchmark 函数发现它的确变快了。但你说不清楚具体变快了多少,你想知道函数优化前后的性能对比,提高多少百分点,可信度高吗?
针对以上的需求场景,有一个工具可以帮助到你,它就是 benchstat。

Benchmark 示例

我们先回顾一下基准测试。为了方便理解,这里以计算经典的计算斐波那契数列值为例。

  1. func FibSolution(n int) int {
  2. if n < 2 {
  3. return n
  4. }
  5. return FibSolution(n-1) + FibSolution(n-2)
  6. }

上述代码是递归式实现,很明显,当 n 越来越大时,该函数的运行会变得非常耗时。以 n 为 20 为例,Benchmark 函数如下

  1. func BenchmarkFib20(b *testing.B) {
  2. for i := 0; i < b.N; i++ {
  3. FibSolution(20)
  4. }
  5. }

命令行执行go test -bench=BenchmarkFib20得到性能结果

  1. BenchmarkFib20-8 39452 30229 ns/op

其中,-8 代表的是 8 cpu,函数运行次数为 39452,每次函数的平均花费时间为 30229ns。如果我们想得到多次样本数据,可以指定 go test 的 -count=N 参数。例如想得到 5 次样本数据,则执行go test -bench=BenchmarkFib20 -count=5

  1. BenchmarkFib20-8 39325 30297 ns/op
  2. BenchmarkFib20-8 39216 30349 ns/op
  3. BenchmarkFib20-8 39901 30251 ns/op
  4. BenchmarkFib20-8 39336 30455 ns/op
  5. BenchmarkFib20-8 39423 30894 ns/op

计算斐波那契数列值的迭代式实现如下

  1. func FibSolution(n int) int {
  2. if n < 2 {
  3. return n
  4. }
  5. p, q, r := 0, 0, 1
  6. for i := 2; i <= n; i++ {
  7. p = q
  8. q = r
  9. r = p + q
  10. }
  11. return r
  12. }

对比这两种函数的性能差异,最朴素的方式就是分别对这两个函数进行基准测试,然后通过手工分析这些基准测试结果,但是这并不直观。

benchstat

benchstat 是 Go 官方推荐的一款命令行工具,它用于计算和比较基准测试的相关统计数据。
我们可以通过以下命令进行安装

  1. go install golang.org/x/perf/cmd/benchstat@latest

执行 -h 参数可以看到该工具的使用描述

  1. ~ $ benchstat -h
  2. usage: benchstat [options] old.txt [new.txt] [more.txt ...]
  3. options:
  4. -alpha α
  5. consider change significant if p < α (default 0.05)
  6. -csv
  7. print results in CSV form
  8. -delta-test test
  9. significance test to apply to delta: utest, ttest, or none (default "utest")
  10. -geomean
  11. print the geometric mean of each file
  12. -html
  13. print results as an HTML table
  14. -norange
  15. suppress range columns (CSV only)
  16. -sort order
  17. sort by order: [-]delta, [-]name, none (default "none")
  18. -split labels
  19. split benchmarks by labels (default "pkg,goos,goarch")

我们想比较 FibSolution(n) 从 15 到 20,两种实现方式的性能基准测试。

  1. $ go test -bench=. -count=5 | tee old.txt
  2. $ go test -bench=. -count=5 | tee new.txt

注意,这两条命令执行时,分别对应 FibSolution 函数采用递归式和迭代式实现逻辑。
此时,我们可以对这两个函数实现逻辑进行性能对比

  1. $ benchstat old.txt new.txt
  2. name old time/op new time/op delta
  3. Fib15-8 2.67µs ± 2% 0.01µs ± 5% -99.81% (p=0.008 n=5+5)
  4. Fib16-8 4.20µs ± 1% 0.01µs ± 2% -99.87% (p=0.008 n=5+5)
  5. Fib17-8 6.81µs ± 0% 0.01µs ± 2% -99.92% (p=0.008 n=5+5)
  6. Fib18-8 11.1µs ± 1% 0.0µs ± 1% -99.95% (p=0.008 n=5+5)
  7. Fib19-8 18.0µs ± 2% 0.0µs ± 4% -99.97% (p=0.008 n=5+5)
  8. Fib20-8 29.2µs ± 1% 0.0µs ± 3% -99.98% (p=0.008 n=5+5)

可以看到,递归式实现的函数,他的执行时间随着 n 值变大增加非常明显。迭代式实现方式,相较于递归式,它的平均时间开销降低了 99 % 以上,优化效果非常明显。
另外,p=0.008 表示结果的可信程度,p 值越大表明可信度越低。一般以 0.05 作为临界值,超过该值,则结果不可信。n=5+5 表示分别使用的有效样本数量。

总结

benchstat 是一个基准测试统计工具,当我们做一些优化工作时,可以利用它减轻人工分析数据成本。
如果你的项目在 CI/CD 流程中有部署自动化测试,那不妨将该工具加入进来。在对函数有改动且加剧了性能损耗时,它或许能帮助你提前发现问题。