多核架构代码迁移方法
一位维基教科书作者认为此页面应拆分为更小的页面,并包含更窄的子主题。 您可以通过将此大页面拆分为更小的页面来提供帮助。请务必遵循命名策略。将书籍分成更小的部分可以提供更多关注点,并允许每个部分都做好一件事,这对所有人都有益。 |
本维基教科书描述了一种逐步方法,用于将传统代码移植到多核架构。
此方法由高性能计算 (HPC) 参与者用作 HMPP 能力中心的一部分。 HMPP 能力中心汇集合作伙伴,在技术(并行编程、代码调优等)和应用程序级别应对多核编程挑战。
将代码移植到多核系统是一个复杂的操作,需要整合许多技能才能实现计划结果的计划工作量。从计算机科学的角度来看,将应用程序移植到多核目标包括提供一个等效的程序,该程序通过利用硬件级别的并行性来更快地运行。目标是提高性能,而不必使用所有硬件组件。如果基于串行代码的解决方案是最好的,则应考虑它。
迁移应用程序主要有两个交织的维度
- 实现高性能;
- 从应用程序开发人员的角度来看,保持代码的可读性/可维护性。迁移后的代码仍然可以被代码所有者理解以及易于维护是一个主要约束。
在大多数情况下,起点是顺序遗留程序。它的迁移主要是因为没有自动过程可以将顺序代码转换为利用大量内核的大规模并行版本。由于处理器格局的快速发展使软件开发变得更加复杂,因此通常的并行编程策略将不得不进行修改以适应现有应用程序,以便利用这些新处理器。
除了清楚地了解如何将应用程序迁移到新的多核处理器(目前是 GPU)外,方法的主要目标是降低风险并提高效率。事实上,开始一个项目并在几个月后意识到已经投入了工程资源和资金但该项目无法成功,这是不可行的。
此处定义的代码迁移过程不过是将开发周期细分为具有相关持续时间的步骤的常识方法。每个步骤都指示使用哪些工具,并在开始下一阶段之前产生一个继续/停止决策。
三个步骤是
- 并行项目定义:在此步骤中,对应用程序进行诊断,以评估潜在的加速并确定与成本相关的主要移植操作。作为先决条件,将建立一个验证过程以确保数值结果的有效性。
- 应用程序移植:在几周内,开发了代码的第一个功能性 GPU 版本,并执行了 GPU 执行配置文件以识别瓶颈,以便在下一步中提高代码效率。
- 应用程序优化:分析瓶颈并执行代码优化以获得经过微调的生产代码。由于存在未成功的风险,此步骤可能比之前的步骤持续时间更长。
前两个步骤属于初始阶段的一部分,旨在展现异构并行性。它们由熟悉应用程序算法和计算方法的程序员执行。第三步,即第二阶段,需要更多代码调优技术的技能。
这些步骤是在控制成本的情况下定义的。随着迁移过程的进行,失败的风险降低,可以将更多人力投入到最终操作中。迁移方法真正面向在给定时间段内进行“尽力而为”的方法。
图中展示的工具只是示例,可以借助参考资料进行补充。
图 1 中的顶部部分详细介绍了执行的步骤,以分析代码并定义主要的迁移操作
- 热点识别:使用分析工具,此第一阶段旨在找到可能从 GPU 加速中受益的关键热点。可能需要重写代码以增加数据并行性。
- CPU 分析:CPU 分析是必要的,以确保原始代码已充分优化,可以作为公平的性能比较基准。调优 CPU 代码通常也会导致有效的迁移起点。
- 并行性发现:此步骤确保内核可以并行执行。如果不是这种情况,加速器将无法实现性能提升。然后应重新考虑算法以展现并行性。
图 2 底部的框给出了开发和构建应用程序的第一个功能性 GPU 版本的步骤。它们主要包括通过使用 HMPP 指令注释先前识别的热点来生成和调用 GPU 内核。
这些步骤是增量执行的:内核被逐个移植和验证;根据原始 CPU 性能评估其性能,以检查它们是否适合 GPU 执行;根据 HMPP 向导的建议,对内核计算应用基本的代码转换,以使其对 GPU 友好;一些数据传输基本上进行了优化,以便在代码片段执行之前预加载数据并抑制对常量数据的冗余传输。此初步移植版本用作识别 GPGPU 问题以及验证实现的并行属性。通过能够跟踪更改,增量方式允许更容易地查找和纠正错误,在最坏的情况下可以恢复。事实上,如果一次进行太多转换,很容易迷失方向。
在此最后一步中,通过进一步减少数据传输、微调 GPU 内核性能以及将 GPU 设备分配移动到应用程序启动时来优化整个混合应用程序。
- 目标架构和操作系统是什么?
- 对编译器、库、软件许可证(例如 GPL)有什么限制?
- 所有代码和必要的库是否都可以在目标机器上使用?
- 是否有可用的代表性输入数据集?
- 与顺序结果相比,并行执行结果是否需要逐位等效?
- 是否已定义验证执行结果的过程(考虑到浮点数舍入的更改)?
- 是否有能够回答有关应用程序代码和算法问题的参考人?
- 是否清楚地定义了性能目标(以及在哪些执行配置文件上)?
- 是否有可用的代码功能描述和文档?
- 通常执行哪些类型的生产运行(例如吞吐量模式、截止日期模式等)?
- Banerjee, U., Bliss. B., Ma, Z. 和 Petersen, P.,“在英特尔® 线程检查器中揭示数据竞争检测”,于 2006 年 3 月 26 日在美国纽约曼哈顿举行的第一届多核系统软件工具研讨会 (STMCS) 上发表,与 IEEE/ACM 国际代码生成与优化研讨会 (CGO) 同时举行。
- D.F. Bacon、S.L. Graham、O.J. Sharp,面向高性能计算的编译器转换,“ACM 计算机调查”,1994 年 12 月,第 26 卷,第 4 期,第 345-420 页
- David Blair Kirk、Wen-mei W. Hwu:大规模并行处理器编程——实践方法。Morgan Kaufmann 2010:I-XVIII,1-258
- F. Bodin、S. Bihan,“面向图形处理单元的异构多核并行编程”,科学编程杂志,第 17 卷,第 4 期 / 2009 年。
- G. Hager 和 G. Wellein:面向科学家和工程师的高性能计算入门。CRC 计算科学系列,2010 年。 ISBN 978-1439811924
- Herlihy,M. 和 Shavit,N.,多处理器编程艺术,Morgan Kaufmann,2008 年。
- John L. Hennessy 和 David A. Patterson。2003 年。计算机体系结构;定量方法(第 3 版)。Morgan Kaufmann 出版公司,美国加利福尼亚州旧金山。
- Kennedy,K. 和 Allen,J. R. 2002 年。面向现代体系结构的优化编译器:基于依赖项的方法。Morgan Kaufmann 出版公司。
- 科学应用程序的性能优化,David H. Bailey、Robert F. Lucas、Samuel Williams
- S. Akhter:多核编程:通过软件多线程提高性能。英特尔出版社,2006 年。 ISBN 978-0976483243
- Timothy Mattson、Beverly Sanders 和 Berna Massingill。2004 年。并行编程模式(第一版)。Addison-Wesley 专业版。
- U. Banerjee。面向超级计算的依赖项分析。Kluwer 学术出版社,马萨诸塞州诺威尔,1988 年。
网上有很多资源,以下列举了一些。
- ACM 并行计算技术包: http://techpack.acm.org/parallel/JourneymanTour.pdf
- Allinea DDT: http://www.allinea.com/products/ddt/
- Allinea OPT: http://www.allinea.com/products/opt/
- 来自编译器的自动并行化,例如英特尔编译器 (http://software.intel.com/en-us/articles/automatic-parallelization-with-intel-compilers/)、PGI 编译器 (http://www.pgroup.com/products/pgicdk.htm)、PathScale 编译器 (http://www.pathscale.com/pdf/QuickReference.pdf) 等。
- 自动调整的线性代数软件: http://math-atlas.sourceforge.net/
- 并行程序设计与构建: http://www.mcs.anl.gov/~itf/dbpp/
- 离散傅里叶变换: http://www.fftw.org/
- GPGPU.org 是 GPGPU 新闻和信息的中心资源: http://gpgpu.org
- Gprof:GNU 分析器。 http://www.cs.utah.edu/dept/old/texinfo/as/gprof_toc.html。
- GPUCV(GPU 加速的图像处理): https://picoforge.int-evry.fr/cgi-bin/twiki/view/Gpucv/Web/
- HMPP 工作台: http://www.caps-entreprise.com/fr/page/index.php?id=49&p_p=36
- HpcToolkit: http://hpctoolkit.org/
- http://bebop.cs.berkeley.edu/oski/
- http://developer.amd.com/gpu/acmlgpu/Pages/default.aspx
- http://developer.amd.com/zones/openclzone/pages/default.aspx
- http://developer.amd.com/zones/OpenCLZone/pages/toolsandlibraries.aspx
- http://en.wikipedia.org/wiki/Automatic_parallelization
- http://en.wikipedia.org/wiki/Data_dependency
- http://en.wikipedia.org/wiki/HMPP_Open_Standard
- http://en.wikipedia.org/wiki/Loop_nest_optimization
- http://en.wikipedia.org/wiki/Parallel_computing
- http://golem5.org/gatlas/
- http://icl.cs.utk.edu/magma/
- http://math.nist.gov/sparselib++/
- http://openmp.org/wp/
- http://software.intel.com/en-us/articles/intel-mkl/
- http://support.amd.com/us/Processor_TechDocs/40546.pdf
- http://www-users.cs.umn.edu/~karypis/parbook/
- http://www.akkadia.org/drepper/cpumemory.pdf
- http://www.cs.berkeley.edu/~volkov/volkov09-optimizing.pdf
- http://www.cs.berkeley.edu/~volkov/volkov10-GTC.pdf
- http://www.culatools.com/
- http://www.hipeac.net/system/files/NemaLabs_0.pdf
- http://www.khronos.org/opencl
- http://www.nas.nasa.gov/Resources/Software/npb.html
- http://www.nemalabs.com/
- http://www.netlib.org/lapack/
- http://www.NVIDIA.com/content/GTC/documents/1418_GTC09.pdf
- http://www.pathscale.com/pdf/PathScale-ENZO-1.0-UserGuide.pdf
- http://www.vi-hps.org/
- http://www.vi-hps.org/training/
- https://computing.llnl.gov/tutorials/openMP/
- https://computing.llnl.gov/tutorials/parallel_comp/
- 英特尔 IPP: http://www.intel.com/software/products/ipp
- 并行编程入门: https://computing.llnl.gov/tutorials/parallel_comp/
- Linux“time”命令: https://computing.llnl.gov/tutorials/performance_tools/#time
- 多核协会: http://www.multicore-association.org/workgroup/mpp.php
- NVIDIA CUDA 可用: http://developer.NVIDIA.com/object/cuda home.html。
- NVIDIA CUDA: http://developer.NVIDIA.com/object/cuda home.html
- NVIDIA NSight: http://developer.NVIDIA.com/NVIDIA-parallel-nsight
- Opari: http://www.fz-juelich.de/zam/kojak/opari
- OpenCL 最佳实践: http://www.NVIDIA.com/content/cudazone/CUDABrowser/downloads/papers/NVIDIA_OpenCL_BestPracticesGuide.pdf
- OpenCV(开源计算机视觉): http://opencv.willowgarage.com/wiki/
- OpenHMPP: http://www.openhmpp.org/
- Oprofile: http://oprofile.sourceforge.net/
- PAPI(性能 API): http://icl.cs.utk.edu/papi/
- Paraver: http://www.bsc.es/plantillaA.php?cat_id=485
- 性能分析工具: https://computing.llnl.gov/tutorials/performance_tools/
- Rogue Wave TotalView: http://www.roguewave.com/products/totalview-family/totalview.aspx
- TAU: http://tau.uoregon.edu
- Valgrind: http://valgrind.org/
- Vampire: http://www.vampir.eu