CUDA软件实现跨线程块同步 - RainbowC0

Wait 5 sec.

【摘要】本文针对CUDA设备端跨线程块同步需求,在计算能力低于9.0(如RTX 4090 8.9、V100 7.0)无法使用集群同步的情况下,通过分析协作组grid.sync()源码,揭示了其基于屏障变量原子自增与符号位翻转的软件实现机制。借鉴该原理,设计并实现了一种自定义的跨块同步函数sync_ctas,... 阅读全文