求向量元素的加和

std::vector中添加元素最快的方法是哪种?为了得到答案,我准备向std::vector中填充了一亿个数值,这些数在1~10之间均匀分布) 。我们的任务是用各种方法计算这些数字的和,并添加执行时间作为性能指标。本节将讨论原子、锁、线程本地数据和任务。

单线程方式

最直接的方式是使用for循环进行数字的添加。

for循环

下面的代码中,第27行进行加和计算。

  1. // calculateWithLoop.cpp
  2. #include <chrono>
  3. #include <iostream>
  4. #include <random>
  5. #include <vector>
  6. constexpr long long size = 100000000;
  7. int main() {
  8. std::cout << std::endl;
  9. std::vector<int>randValues;
  10. randValues.reserve(size);
  11. // random values
  12. std::random_device seed;
  13. std::mt19937 engine(seed());
  14. std::uniform_int_distribution<> uniformDIst(1, 10);
  15. for (long long i = 0; i < size; ++i)
  16. randValues.push_back(uniformDIst(engine));
  17. const auto sta = std::chrono::steady_clock::now();
  18. unsigned long long sum = {};
  19. for (auto n : randValues)sum += n;
  20. const std::chrono::duration<double> dur =
  21. std::chrono::steady_clock::now() - sta;
  22. std::cout << "Time for mySumition " << dur.count()
  23. << "seconds" << std::endl;
  24. std::cout << "Result: " << sum << std::endl;
  25. std::cout << std::endl;
  26. }

我的电脑可够快?

求向量元素的加和 - 图1

显式地使用循环没什么技术含量。大多数情况下,可以使用标准模板库中的算法。

使用std::accumulate进行加和计算

std::accumulate是计算向量和的正确选择,下面代码展示了std::accumulate的使用方法。完整的源文件可以在本书的参考资料中找到。

  1. // calculateWithStd.cpp
  2. ...
  3. const unsigned long long sum = std::accumulate(randValues.begin(),
  4. randValues.end(), 0);
  5. ...

Linux上,std::accumulate的性能与for循环的性能大致相同,而在Windows上使用std::accumulate会产生很大的性能收益。

求向量元素的加和 - 图2

现在有了基线参考时间,就可以继续剩余的两个单线程场景了:使用锁和原子操作。为什么是这两个场景?我们需要有性能数字佐证,在没有竞争的情况下,锁和原子操作对数据进行保护,需要付出多大的性能代价。

使用锁进行保护

如果使用锁保护对求和变量的访问,需要回答两个问题。

  1. 无争抢的同步锁,需要多大的代价?
  2. 最优的情况下,锁能有多快?

这里使用std::lock_guard的方式,完整源码可在本书资源中找到。

  1. // calculateWithLock.cpp
  2. ...
  3. std::mutex myMutex;
  4. for (auto i: randValues){
  5. std::lock_guard<std::mutex> myLockGuard(myMutex);
  6. sum += i;
  7. }
  8. ...

执行时间与预期的一样:对变量sum进行保护后,程序变得很慢。

求向量元素的加和 - 图3

std::lock_guard的方式大约比std::accumulate慢50-150倍。接下来,让我们来看看原子操作的表现。

使用原子操作进行保护

对于原子操作的问题与锁一样:

  1. 原子同步的代价有多大?
  2. 如果没有竞争,原子操作能有多快?

还有一个问题:原子操作和锁的性能有多大差异?

  1. // calculateWithAtomic.cpp
  2. #include <atomic>
  3. #include <chrono>
  4. #include <iostream>
  5. #include <numeric>
  6. #include <random>
  7. #include <vector>
  8. constexpr long long size = 100000000;
  9. int main() {
  10. std::cout << std::endl;
  11. std::vector<int>randValues;
  12. randValues.reserve(size);
  13. // random values
  14. std::random_device seed;
  15. std::mt19937 engine(seed());
  16. std::uniform_int_distribution<> uniformDist(1, 10);
  17. for (long long i = 0; i < size; ++i)
  18. randValues.push_back(uniformDist(engine));
  19. std::atomic<unsigned long long> sum = {};
  20. std::cout << std::boolalpha << "sum.is_lock_free(): "
  21. << sum.is_lock_free() << std::endl;
  22. std::cout << std::endl;
  23. auto sta = std::chrono::steady_clock::now();
  24. for (auto i : randValues) sum += i;
  25. std::chrono::duration<double> dur = std::chrono::steady_clock::now() - sta;
  26. std::cout << "Time for addition " << dur.count()
  27. << " seconds" << std::endl;
  28. std::cout << "Result: " << sum << std::endl;
  29. std::cout << std::endl;
  30. sum = 0;
  31. sta = std::chrono::steady_clock::now();
  32. for (auto i : randValues) sum.fetch_add(i);
  33. dur = std::chrono::steady_clock::now() - sta;
  34. std::cout << "Time for addition " << dur.count()
  35. << " seconds" << std::endl;
  36. std::cout << "Result: " << sum << std::endl;
  37. std::cout << std::endl;
  38. }

首先,第28行检查是否有锁,否则锁和原子操作就没有区别了。所有主流平台上,原子变量都是无锁的。然后,用两种方法计算加和。第33行使用+=操作符,第45行使用fetch_add方法。单线程情况下,两种方式相差不多;不过,我可以显式地指定fetch_add的内存序。关于这点将在下一小节中详细介绍。

下面是程序的结果。

求向量元素的加和 - 图4

求向量元素的加和 - 图5

单线程场景总结

  1. 原子操作在Linux和Windows上的速度比std::accumulate要慢12 - 50倍。
  2. 在Linux和Windows上,原子操作的速度比锁快2 - 3倍。
  3. std::accumulate似乎在Windows上有更好的优化。

进行多线程场景测试之前,用表总结了单线程执行的结果,时间单位是秒。

操作系统(编译器) for循环 std::accumulate 原子操作
Linux(GCC) 0.07 0.07 3.34 1.34/1.33
Windows(cl.exe) 0.08 0.03 4.07 1.50/1.61

多线程:使用共享变量进行求和

使用四个线程并用共享变量进行求和,并不是最优的最优的方式,因为同步开销超过了性能收益。

还是那两个问题:

  1. 使用锁和原子的求和方式,在性能上有什么不同?
  2. std::accumulate的单线程执行和多线程执行的性能表现有什么不同?

使用std::lock_guard

实现线程安全的求和,最简单方法是使用std::lock_guard

  1. // synchronisationWithLock.cpp
  2. #include<chrono>
  3. #include <iostream>
  4. #include <mutex>
  5. #include <random>
  6. #include <thread>
  7. #include <utility>
  8. #include <vector>
  9. constexpr long long size = 100000000;
  10. constexpr long long fir = 25000000;
  11. constexpr long long sec = 50000000;
  12. constexpr long long thi = 75000000;
  13. constexpr long long fou = 100000000;
  14. std::mutex myMutex;
  15. void sumUp(unsigned long long& sum, const std::vector<int>& val,
  16. unsigned long long beg, unsigned long long end) {
  17. for (auto it = beg; it < end; ++it) {
  18. std::lock_guard<std::mutex> myLock(myMutex);
  19. sum += val[it];
  20. }
  21. }
  22. int main() {
  23. std::cout << std::endl;
  24. std::vector<int> randValues;
  25. randValues.reserve(size);
  26. std::mt19937 engine;
  27. std::uniform_int_distribution<> uniformDist(1, 10);
  28. for (long long i = 0; i < size; ++i)
  29. randValues.push_back(uniformDist(engine));
  30. unsigned long long sum = 0;
  31. const auto sta = std::chrono::steady_clock::now();
  32. std::thread t1(sumUp, std::ref(sum), std::ref(randValues), 0, fir);
  33. std::thread t2(sumUp, std::ref(sum), std::ref(randValues), fir, sec);
  34. std::thread t3(sumUp, std::ref(sum), std::ref(randValues), sec, thi);
  35. std::thread t4(sumUp, std::ref(sum), std::ref(randValues), thi, fou);
  36. t1.join();
  37. t2.join();
  38. t3.join();
  39. t4.join();
  40. std::chrono::duration<double> dur = std::chrono::steady_clock::now() - sta;
  41. std::cout << "Time for addition " << dur.count()
  42. << " seconds" << std::endl;
  43. std::cout << "Result: " << sum << std::endl;
  44. std::cout << std::endl;
  45. }

程序很简单,函数sumUp(第20 - 26行)是需要线程完成的工作包。通过引用的方式得到变量sumstd::vector valbegend用来限定求和的范围,std::lock_guard(第23行)用于保护共享变量sum。每个线程(第43 - 46行)对四分之一的数据进行加和计算。

下面是我电脑上的性能数据:

求向量元素的加和 - 图6

求向量元素的加和 - 图7

因为std::lock_guard需要对行了同步,所以瓶颈在共享变量sum处。简单直接的解决方案:用轻量级的原子操作来替换重量级的锁。

没有更改,为了简单起见,本小节之后只展示sumUp函数体。完整的示例,请参阅本书的参考资料。

使用原子变量

求和变量sum是一个原子变量,就不再需要std::lock_guard。以下是修改后的求和函数。

  1. // synchronisationWithAtomic.cpp
  2. ...
  3. void sumUp(std::atomic<unsigned long long>& sum, const std::vector<int>& val,
  4. unsigned long long beg, unsigned long long end){
  5. for (auto it = beg; it < end; ++it){
  6. sum += val[it];
  7. }
  8. }

我的Windows笔记本电脑的性能数据相当奇怪,耗时是使用std::lock_guard的两倍多。

求向量元素的加和 - 图8

除了使用+=操作符外,还可以使用fetch_add

使用fetch_add

这次,代码的修改的更少,只是将求和表达式改为sum.fetch_add(val[it])

  1. // synchronisationWithFetchAdd.cpp
  2. ...
  3. void sumUp(std::atomic<unsigned long long>& sum, const std::vector<int>& val,
  4. unsigned long long beg, unsigned long long end){
  5. for (auto it = beg; it < end; ++it){
  6. sum.fetch_add(val[it]);
  7. }
  8. }
  9. ...

现在的性能与前面的例子相似,操作符+=fetch_add之间貌似没有什么区别。

求向量元素的加和 - 图9

虽然+=操作和fetch_add在性能上没有区别,但是fetch_add有一个优势,可以显式地弱化内存序,并使用自由语义。

使用自由语义的fetch_add

  1. // synchronisationWithFetchAddRelaxed.cpp
  2. ...
  3. void sumUp(std::atomic<unsigned long long>& sum, const std::vector<int>& val,
  4. unsigned long long beg, unsigned long long end){
  5. for (auto it = beg; it < end; ++it){
  6. sum.fetch_add(val[it], std::memory_order_relaxed);
  7. }
  8. }
  9. ...

原子变量默认是顺序一致的。对于原子变量的加和和赋值,使用fetch_add是没问题的,也可以进行优化。我将求和表达式中的内存序调整为自由语义:sum.fetch_add (val[it],std::memory_order_relaxed)。自由语义是最弱的内存序,也是我们优化的终点。

这个用例中,自由语义能很好的完成工作,因为fetch_add进行的每个加和都是原子的,并且线程会进行同步。

因为是最弱的内存模型,所以性能最好。

求向量元素的加和 - 图10

多线程使用共享变量求和总结

性能数值的时间单位是秒。

操作系统(编译器) std::lock_guard 原子 += fetch_add fetch_add (使用自由内存序)
Linux(GCC) 20.81 7.78 7.87 7.66
Windows(cl.exe) 6.22 15.73 15.78 15.01

性能数据并不乐观,使用自由语义的共享原子变量,在四个线程的帮助下计算加和,其速度大约比使用std::accumulate算法的单个线程慢100倍。

结合前面的两种加和的策略,接下来会使用四个线程,并尽量减少线程之间的同步。

线程本地的加和

接下来使用局部变量、线程本地数据和任务,可以最小化同步。

使用本地变量

每个线程都使用本地变量求和,所以可以在不同步的情况下完成自己的工作。不过,汇总局部变量的总和时需要进行同步。简单地说:只添加了4个同步,所以从性能的角度来看,使用哪种同步并不重要。我使用std::lock_guard和一个具有顺序一致语义和自由语义的原子变量。

std::lock_guard

使用std::lock_guard进行最小化同步的加和计算。

  1. // localVariable.cpp
  2. #include <mutex>
  3. #include<chrono>
  4. #include <iostream>
  5. #include <random>
  6. #include <thread>
  7. #include <utility>
  8. #include <vector>
  9. constexpr long long size = 100000000;
  10. constexpr long long fir = 25000000;
  11. constexpr long long sec = 50000000;
  12. constexpr long long thi = 75000000;
  13. constexpr long long fou = 100000000;
  14. std::mutex myMutex;
  15. void sumUp(unsigned long long& sum, const std::vector<int>& val,
  16. unsigned long long beg, unsigned long long end) {
  17. unsigned long long tmpSum{};
  18. for (auto i = beg; i < end; ++i) {
  19. tmpSum += val[i];
  20. }
  21. std::lock_guard<std::mutex> lockGuard(myMutex);
  22. sum += tmpSum;
  23. }
  24. int main() {
  25. std::cout << std::endl;
  26. std::vector<int> randValues;
  27. randValues.reserve(size);
  28. std::mt19937 engine;
  29. std::uniform_int_distribution<> uniformDist(1, 10);
  30. for (long long i = 0; i < size; ++i)
  31. randValues.push_back(uniformDist(engine));
  32. unsigned long long sum{};
  33. const auto sta = std::chrono::steady_clock::now();
  34. std::thread t1(sumUp, std::ref(sum), std::ref(randValues), 0, fir);
  35. std::thread t2(sumUp, std::ref(sum), std::ref(randValues), fir, sec);
  36. std::thread t3(sumUp, std::ref(sum), std::ref(randValues), sec, thi);
  37. std::thread t4(sumUp, std::ref(sum), std::ref(randValues), thi, fou);
  38. t1.join();
  39. t2.join();
  40. t3.join();
  41. t4.join();
  42. std::chrono::duration<double> dur =
  43. std::chrono::steady_clock::now() - sta;
  44. std::cout << "Time for addition " << dur.count()
  45. << " seconds" << std::endl;
  46. std::cout << "Result: " << sum << std::endl;
  47. std::cout << std::endl;
  48. }

第26和27行,将局部求和结果tmpSum添加到全局求和变量sum中。

求向量元素的加和 - 图11

求向量元素的加和 - 图12

接下来使用局部变量的示例中,只有函数求和方式发生了变化,所以只展示这个函数体实现。完整的程序代码,请参考源文件。

使用顺序一致语义的原子变量

让我们用一个原子变量来声明全局求和变量sum

  1. // localVariableAtomic.cpp
  2. ...
  3. void sumUp(std::atomic<unsigned long long>& sum, const std::vector<int>& val,
  4. unsigned long long beg, unsigned long long end){
  5. unsigned int long long tmpSum{};
  6. for (auto i = beg; i < end; ++i){
  7. tmpSum += val[i];
  8. }
  9. sum+= tmpSum;
  10. }
  11. ...

下面是具体的性能数据:

求向量元素的加和 - 图13

求向量元素的加和 - 图14

使用自由语义的原子变量

现在不使用默认的内存序,而使用的是自由语义。只需要保证,所有求和操作是原子的就好。

  1. // localVariableAtomicRelaxed.cpp
  2. ...
  3. void sumUp(std::atomic<unsigned long long>& sum, const std::vector<int>& val,
  4. unsigned long long beg, unsigned long long end){
  5. unsigned int long long tmpSum{};
  6. for (auto i = beg; i < end; ++i){
  7. tmpSum += val[i];
  8. }
  9. sum.fetch_add(tmpSum, std::memory_order_relaxed);
  10. }
  11. ...

和预期一样,使用std::lock_guard,使用顺序一致的原子变量,或是使用自由语义的原子变量进行求和,在性能方面并没什么差异。

求向量元素的加和 - 图15

求向量元素的加和 - 图16

线程本地数据不同于其他类型的数据,它的生命周期与线程绑定,并非函数的生命周期,例如:本例中的变量tmpSum

使用线程本地数据

线程本地数据属于创建它的线程,其只在需要时被创建,非常适合于本地求和。

  1. // threadLocalSummation.cpp
  2. #include <atomic>
  3. #include<chrono>
  4. #include <iostream>
  5. #include <random>
  6. #include <thread>
  7. #include <utility>
  8. #include <vector>
  9. constexpr long long size = 100000000;
  10. constexpr long long fir = 25000000;
  11. constexpr long long sec = 50000000;
  12. constexpr long long thi = 75000000;
  13. constexpr long long fou = 100000000;
  14. thread_local unsigned long long tmpSum = 0;
  15. void sumUp(std::atomic<unsigned long long>& sum, const std::vector<int>& val,
  16. unsigned long long beg, unsigned long long end) {
  17. for (auto i = beg; i < end; ++i) {
  18. tmpSum += val[i];
  19. }
  20. sum.fetch_add(tmpSum, std::memory_order_relaxed);
  21. }
  22. int main() {
  23. std::cout << std::endl;
  24. std::vector<int> randValues;
  25. randValues.reserve(size);
  26. std::mt19937 engine;
  27. std::uniform_int_distribution<> uniformDist(1, 10);
  28. for (long long i = 0; i < size; ++i)
  29. randValues.push_back(uniformDist(engine));
  30. std::atomic<unsigned long long> sum{};
  31. const auto sta = std::chrono::steady_clock::now();
  32. std::thread t1(sumUp, std::ref(sum), std::ref(randValues), 0, fir);
  33. std::thread t2(sumUp, std::ref(sum), std::ref(randValues), fir, sec);
  34. std::thread t3(sumUp, std::ref(sum), std::ref(randValues), sec, thi);
  35. std::thread t4(sumUp, std::ref(sum), std::ref(randValues), thi, fou);
  36. t1.join();
  37. t2.join();
  38. t3.join();
  39. t4.join();
  40. std::chrono::duration<double> dur =
  41. std::chrono::steady_clock::now() - sta;
  42. std::cout << "Time for addition " << dur.count()
  43. << " seconds" << std::endl;
  44. std::cout << "Result: " << sum << std::endl;
  45. std::cout << std::endl;
  46. }

第18行中声明了线程本地变量tmpSum,并在第23和25行中使用它进行加和。

下面是使用本地变量加和的性能数据:

求向量元素的加和 - 图17

最后,来看下如何使用任务(task)完成这项工作。

使用任务

使用任务,我们可以使用隐式同步完成整个工作。每个部分求和在单独的线程中执行,最后在主线程中进行求和。

代码如下:

  1. // tasksSummation.cpp
  2. #include<chrono>
  3. #include <future>
  4. #include <iostream>
  5. #include <random>
  6. #include <thread>
  7. #include <utility>
  8. #include <vector>
  9. constexpr long long size = 100000000;
  10. constexpr long long fir = 25000000;
  11. constexpr long long sec = 50000000;
  12. constexpr long long thi = 75000000;
  13. constexpr long long fou = 100000000;
  14. void sumUp(std::promise<unsigned long long>&& prom, const std::vector<int>& val,
  15. unsigned long long beg, unsigned long long end) {
  16. unsigned long long sum = {};
  17. for (auto i = beg; i < end; ++i) {
  18. sum += val[i];
  19. }
  20. prom.set_value(sum);
  21. }
  22. int main() {
  23. std::cout << std::endl;
  24. std::vector<int> randValues;
  25. randValues.reserve(size);
  26. std::mt19937 engine;
  27. std::uniform_int_distribution<> uniformDist(1, 10);
  28. for (long long i = 0; i < size; ++i)
  29. randValues.push_back(uniformDist(engine));
  30. std::promise<unsigned long long> prom1;
  31. std::promise<unsigned long long> prom2;
  32. std::promise<unsigned long long> prom3;
  33. std::promise<unsigned long long> prom4;
  34. auto fut1 = prom1.get_future();
  35. auto fut2 = prom2.get_future();
  36. auto fut3 = prom3.get_future();
  37. auto fut4 = prom4.get_future();
  38. const auto sta = std::chrono::steady_clock::now();
  39. std::thread t1(sumUp, std::move(prom1), std::ref(randValues), 0, fir);
  40. std::thread t2(sumUp, std::move(prom2), std::ref(randValues), fir, sec);
  41. std::thread t3(sumUp, std::move(prom3), std::ref(randValues), sec, thi);
  42. std::thread t4(sumUp, std::move(prom4), std::ref(randValues), thi, fou);
  43. auto sum = fut1.get() + fut2.get() + fut3.get() + fut4.get();
  44. std::chrono::duration<double> dur = std::chrono::steady_clock::now() - sta;
  45. std::cout << "Time for addition " << dur.count()
  46. << " seconds" << std::endl;
  47. std::cout << "Result: " << sum << std::endl;
  48. t1.join();
  49. t2.join();
  50. t3.join();
  51. t4.join();
  52. std::cout << std::endl;
  53. }

第39 - 47行定义了四个promise和future。第51 - 54行中,每个promise都被移动到线程中。promise只能移动,不能复制。sumUp的第一个参数使用右值引用的promise。future在第56行使用阻塞的get获取求和结果。

求向量元素的加和 - 图18

所有线程本地求和场景的总结

无论是使用局部变量,任务来部分求和,还是各种同步原语(如原子),性能上好像没有太大的区别,只有线程本地数据似乎让程序变慢了一些。这个观察结果适用于Linux和Windows,不要对Linux相对于Windows的更高性能感到惊讶。别忘了,Linux的电脑上有4个核,而Windows笔记本电脑只有2个核。

操作系统(编译器) std::lock_guard 使用顺序一致语义的原子变量 使用自由语义的原子变量 线程本地数据 任务
Linux(GCC) 0.03 0.03 0.03 0.04 0.03
Windows(cl.exe) 0.10 0.10 0.10 0.20 0.10

多线程的本地求和的速度,大约是单线程求和的两倍。因为线程之间几乎不需要同步,所以在最优的情况下,我认为性能会提高四倍。背后的根本原因是什么?

总结:求向量元素的加和

单线程

基于for循环和STL算法std::accumulate的性能差不多。优化版本中,编译器会使用向量化的SIMD指令(SSE或AVX)用于求和。因此,循环计数器增加了4(SSE)或8(AVX)。

使用共享变量多线程求和

使用共享变量作为求和变量,可以说明了一点:同步操作是代价是非常昂贵的,应该尽可能避免。虽然我使用了原子变量,甚至打破了顺序一致性,但这四个线程比一个线程还要慢100倍。从性能角度考虑,要尽可能减少同步。

线程本地求和

线程本地求和仅比单线程for循环或std::accumulate快两倍,即使四个线程都可以独立工作,这种情况仍然存在。这也让我很惊讶,因为我原以为会有四倍的性能提升。更让我惊讶的是,电脑的四个核心并没有充分利用。

求向量元素的加和 - 图19

没有充分利用的原因也很简单,CPU无法快速地从内存中获取数据。程序执行是有内存限制的,或者说内存延迟了CPU核的计算速度。下图展示了计算时的瓶颈内存。

求向量元素的加和 - 图20

Roofline模型是一种直观的性能模型,可对运行在多核或多核体系结构上的应用程序进行性能评估。该模型依赖于体系结构的峰值性能、峰值带宽和计算密度。