3.5 检测OpenMP的并行环境

NOTE:此示例代码可以在 https://github.com/dev-cafe/cmake-cookbook/tree/v1.0/chapter-03/recipe-05 中找到,有一个C++和一个Fortran示例。该示例在CMake 3.5版(或更高版本)中是有效的,并且已经在GNU/Linux、macOS和Windows上进行过测试。https://github.com/dev-cafe/cmake-cookbook/tree/v1.0/chapter-03/recipe-05 中也有一个适用于CMake 3.5的示例。

目前,市面上的计算机几乎都是多核机器,对于性能敏感的程序,我们必须关注这些多核处理器,并在编程模型中使用并发。OpenMP是多核处理器上并行性的标准之一。为了从OpenMP并行化中获得性能收益,通常不需要修改或重写现有程序。一旦确定了代码中的性能关键部分,例如:使用分析工具,程序员就可以通过预处理器指令,指示编译器为这些区域生成可并行的代码。

本示例中,我们将展示如何编译一个包含OpenMP指令的程序(前提是使用一个支持OpenMP的编译器)。有许多支持OpenMP的Fortran、C和C++编译器。对于相对较新的CMake版本,为OpenMP提供了非常好的支持。本示例将展示如何在使用CMake 3.9或更高版本时,使用简单C++和Fortran程序来链接到OpenMP。

NOTE:根据Linux发行版的不同,Clang编译器的默认版本可能不支持OpenMP。使用或非苹果版本的Clang(例如,Conda提供的)或GNU编译器,除非单独安装libomp库(https://iscinumpy.gitlab.io/post/omp-on-high-sierra/ ),否则本节示例将无法在macOS上工作。

准备工作

C和C++程序可以通过包含omp.h头文件和链接到正确的库,来使用OpenMP功能。编译器将在性能关键部分之前添加预处理指令,并生成并行代码。在本示例中,我们将构建以下示例源代码(example.cpp)。这段代码从1到N求和,其中N作为命令行参数:

  1. #include <iostream>
  2. #include <omp.h>
  3. #include <string>
  4. int main(int argc, char *argv[])
  5. {
  6. std::cout << "number of available processors: " << omp_get_num_procs()
  7. << std::endl;
  8. std::cout << "number of threads: " << omp_get_max_threads() << std::endl;
  9. auto n = std::stol(argv[1]);
  10. std::cout << "we will form sum of numbers from 1 to " << n << std::endl;
  11. // start timer
  12. auto t0 = omp_get_wtime();
  13. auto s = 0LL;
  14. #pragma omp parallel for reduction(+ : s)
  15. for (auto i = 1; i <= n; i++)
  16. {
  17. s += i;
  18. }
  19. // stop timer
  20. auto t1 = omp_get_wtime();
  21. std::cout << "sum: " << s << std::endl;
  22. std::cout << "elapsed wall clock time: " << t1 - t0 << " seconds" << std::endl;
  23. return 0;
  24. }

在Fortran语言中,需要使用omp_lib模块并链接到库。在性能关键部分之前的代码注释中,可以再次使用并行指令。例如:F90需要包含以下内容:

  1. program example
  2. use omp_lib
  3. implicit none
  4. integer(8) :: i, n, s
  5. character(len=32) :: arg
  6. real(8) :: t0, t1
  7. print *, "number of available processors:", omp_get_num_procs()
  8. print *, "number of threads:", omp_get_max_threads()
  9. call get_command_argument(1, arg)
  10. read(arg , *) n
  11. print *, "we will form sum of numbers from 1 to", n
  12. ! start timer
  13. t0 = omp_get_wtime()
  14. s = 0
  15. !$omp parallel do reduction(+:s)
  16. do i = 1, n
  17. s = s + i
  18. end do
  19. ! stop timer
  20. t1 = omp_get_wtime()
  21. print *, "sum:", s
  22. print *, "elapsed wall clock time (seconds):", t1 - t0
  23. end program

具体实施

对于C++和Fortran的例子,CMakeLists.txt将遵循一个模板,该模板在这两种语言上很相似:

  1. 两者都定义了CMake最低版本、项目名称和语言(CXX或Fortran;我们将展示C++版本):

    1. cmake_minimum_required(VERSION 3.9 FATAL_ERROR)
    2. project(recipe-05 LANGUAGES CXX)
  2. 使用C++11标准:

    1. set(CMAKE_CXX_STANDARD 11)
    2. set(CMAKE_CXX_EXTENSIONS OFF)
    3. set(CMAKE_CXX_STANDARD_REQUIRED ON)
  3. 调用find_package来搜索OpenMP:

    1. find_package(OpenMP REQUIRED)
  4. 最后,我们定义可执行目标,并链接到FindOpenMP模块提供的导入目标(在Fortran的情况下,我们链接到OpenMP::OpenMP_Fortran):

    1. add_executable(example example.cpp)
    2. target_link_libraries(example
    3. PUBLIC
    4. OpenMP::OpenMP_CXX
    5. )
  5. 现在,可以配置和构建代码了:

    1. $ mkdir -p build
    2. $ cd build
    3. $ cmake ..
    4. $ cmake --build .
  6. 并行测试(在本例中使用了4个内核):

    1. $ ./example 1000000000
    2. number of available processors: 4
    3. number of threads: 4
    4. we will form sum of numbers from 1 to 1000000000
    5. sum: 500000000500000000
    6. elapsed wall clock time: 1.08343 seconds
  7. 为了比较,我们可以重新运行这个例子,并将OpenMP线程的数量设置为1:

    1. $ env OMP_NUM_THREADS=1 ./example 1000000000
    2. number of available processors: 4
    3. number of threads: 1
    4. we will form sum of numbers from 1 to 1000000000
    5. sum: 500000000500000000
    6. elapsed wall clock time: 2.96427 seconds

工作原理

我们的示例很简单:编译代码,并运行在多个内核上时,我们会看到加速效果。加速效果并不是OMP_NUM_THREADS的倍数,不过本示例中并不关心,因为我们更关注的是如何使用CMake配置需要使用OpenMP的项目。我们发现链接到OpenMP非常简单,这要感谢FindOpenMP模块:

  1. target_link_libraries(example
  2. PUBLIC
  3. OpenMP::OpenMP_CXX
  4. )

我们不关心编译标志或包含目录——这些设置和依赖项是在OpenMP::OpenMP_CXX中定义的(IMPORTED类型)。如第1章第3节中提到的,IMPORTED库是伪目标,它完全是我们自己项目的外部依赖项。要使用OpenMP,需要设置一些编译器标志,包括目录和链接库。所有这些都包含在OpenMP::OpenMP_CXX的属性上,并通过使用target_link_libraries命令传递给example。这使得在CMake中,使用库变得非常容易。我们可以使用cmake_print_properties命令打印接口的属性,该命令由CMakePrintHelpers.CMake模块提供:

  1. include(CMakePrintHelpers)
  2. cmake_print_properties(
  3. TARGETS
  4. OpenMP::OpenMP_CXX
  5. PROPERTIES
  6. INTERFACE_COMPILE_OPTIONS
  7. INTERFACE_INCLUDE_DIRECTORIES
  8. INTERFACE_LINK_LIBRARIES
  9. )

所有属性都有INTERFACE_前缀,因为这些属性对所需目标,需要以接口形式提供,并且目标以接口的方式使用OpenMP。

对于低于3.9的CMake版本:

  1. add_executable(example example.cpp)
  2. target_compile_options(example
  3. PUBLIC
  4. ${OpenMP_CXX_FLAGS}
  5. )
  6. set_target_properties(example
  7. PROPERTIES
  8. LINK_FLAGS ${OpenMP_CXX_FLAGS}
  9. )

对于低于3.5的CMake版本,我们需要为Fortran项目显式定义编译标志。

在这个示例中,我们讨论了C++和Fortran。相同的参数和方法对于C项目也有效。