CUDA进阶第五篇-如何估算出程序的GPU加速比

Post author:xfxia
Post published:2023年8月29日
Post category:其他

当对一个程序进行加速的时候，很多时候需要预估出程序使用GPU加速后的加速比（比如你老板不懂GPU，或者甲方会问你预估加速比等等）。从大二接触GPU加速，到现在大概有6年时间，大大小小的项目也做了十几个，很多时候都需要事先回答加速比会有多少这个问题。这里简单的说一下自己的经验，欢迎各位大神指点。

文中的经验基于目前主流的显卡，比如GTX1080，最低也得是GTX9**系列的。

1.阿姆达尔定律

谈加速比，首先要先明白一个定律-

阿姆达尔定律

。该定律一般应用与CPU加速，可以总结为一句话-

程序中可并行代码的比例决定你增加处理器（总核心数）所能带来的速度提升的上限。

应用在GPU加速情景上比较简单，假设程序S由A和B两个步骤组成，现在对A步骤进行GPU加速，那么

GPU加速比=A步骤加速前的时间/A步骤加速后的时间

，而不是

加速前S的总时间/加速后S的总时间。

这个非常重要，因为很多人不懂GPU加速，他们往往只关注整个程序的加速效果。而对于一个完整的程序，很多都包括一些非常耗时的操作（比如读取图片等）。这种情况下就算你对程序中的某个步骤使用GPU加速到极致，整个程序可能只感觉快了一点点，这是非常不公平的。

2.估算加速比

下面将列出几种常见情况。其中CPU实现的大for循环是最耗时的，其次是资源（显存和句柄等）的申请，最后是核函数级别的优化。

（1）程序CPU实现，并行度高，数据依赖低

这是最理想的情况，常见于各种较简单的图像算法，比如二值化，细化等。简单来讲就是一个大for循环，循环之间没有数据依赖。这种情况下，加速比很容易就上10+倍。当图片较大时（比如1024*1024），上几十倍也是很容易的。

（2）程序GPU实现，但是资源管理差

这是次理想的情况，程序已经由GPU核函数或者调用GPU API实现，但是资源（显存和句柄的申请和释放等）管理比较差。比如流程比较算法的算法，显存和句柄在程序中使用时才申请。这种情况下，看资源申请所占的时间比例，不过一般加速比能到几倍就很不错了。

（3）程序GPU实现，但核函数实现比较差

如果资源管理也做的比较好，一般从核函数本身入手了。对核函数进行优化（使用共享内存，条件分支优化，合并核函数等），得到的加速比一般在2X以内，超过2X的情况并不多。

原文链接：https://blog.csdn.net/litdaguang/article/details/79330741

1.阿姆达尔定律

2.估算加速比

你可能也喜欢