一、核心概念:
延迟隐藏(Latency Hiding)是 GPU 通过多线程机制掩盖指令延迟的关键技术。当某些线程束(warp)因指令延迟(如内存访问或算术计算)而等待时,其他就绪线程束会立即被调度执行,从而保持计算资源的持续利用率。
二、实现原理:
指令延迟定义:指令从发出到完成所需的时钟周期。
线程束调度:每个时钟周期,线程束调度器选择符合条件的就绪线程束执行。
资源利用:当所有调度器均有就绪线程束时,GPU的计算资源(如CUDA核心)可被完全利用。
三、指令类型与延迟:
算术指令:计算操作产生的延迟(如浮点运算)。
内存指令:数据访问延迟(如全局内存读取)。
四、延迟隐藏的本质:
通过大量线程束的快速切换,用其他线程束的计算填充等待时间,使得硬件始终处于忙碌状态,从而“隐藏”单一线程束的延迟。
五、关键条件:
足够的并行性:需有大量活跃线程束(通常通过设置足够的线程块和网格大小实现)。
均衡的负载:避免线程束因分支分化或资源竞争导致调度效率下降。
这一机制是CUDA高性能计算的核心基础之一。