GPU编程21：Nsight Compute (1) Kernel Profiling Guide

Nsight Compute作为NVIDIA官方的GPU性能分析工具，通过深入理解其内核分析机制、指标收集体系与重播技术，开发者能够精准定位CUDA程序的性能瓶颈，优化GPU计算效率。本文系统解析Nsight Compute的内核分析核心概念与实践方法。

引言

Nsight Compute是NVIDIA提供的专业GPU性能分析工具，支持UI和CLI两种使用方式。在常规CUDA程序执行过程中，应用程序直接与CUDA用户模式驱动通信；而使用Nsight Compute进行分析时，会在主机系统启动前端工具，将目标应用程序作为新进程在目标系统上启动，并通过插入测量库的方式探查GPU性能数据。

在Ubuntu系统中，用户可以通过ncu-ui命令启动Nsight Compute的图形界面版本。该工具的核心功能在于收集和分析CUDA内核的性能指标，帮助开发者识别性能瓶颈并优化代码。

指标收集机制

Content Image 7416

Section Sets与Sections

Nsight Compute采用Section Sets体系来组织和管理性能指标。每个set包含一个或多个section，每个section指定一组逻辑相关的度量指标。这种分层设计使得开发者能够根据分析需求灵活选择指标集，平衡分析深度与性能开销。

高级SM和存储器利用率度量：提供整体性能概览
存储器单元相关度量：深入分析内存访问模式
HW调度器相关度量：研究指令调度效率

当未指定特定section时，工具默认收集基础指标集，主要包括高级利用率信息以及静态启动和占用数据。这些基础指标无需重播内核启动即可获取，提供快速的性能概览。而通过--set full选项可以收集完整的指标集，实现更深入的性能分析。

指标收集开销

指标收集的开销主要由以下因素决定：
– 收集的指标数量和类型
– 选择的section set
– 分析的内核数量
– GPU架构特性

开发者需要在快速粗略分析和深入全面分析之间做出权衡，根据具体需求选择合适的指标集。

重播机制详解

Nsight Compute采用多种重播机制来收集完整的性能指标，因为并非所有指标都能在一次内核执行中完成收集。

Kernel Replay

Kernel Replay针对特定内核实例的所有指标进行分组收集。其工作流程如下：

首次通过：保存内核可访问的所有GPU内存
后续通过：恢复内核写入的内存子集到原始状态
重复执行：确保每次重播中内核访问相同的内存内容

这种机制的优势在于内存开销相对可控，但缺点是可能影响某些依赖特定内存状态的指标收集。

Application Replay

与Kernel Replay不同，Application Replay会重新运行整个应用程序多次，每次运行收集一个指标组。这种方法的特点是：

无需保存/恢复内存：每次应用程序都是完整运行
开销较大：需要重复运行整个应用程序
准确性高：能够反映真实的应用程序执行环境

Application Replay适用于需要分析应用程序整体性能的场景，但时间成本较高。

Range Replay

Range Replay捕获并回放应用程序中CUDA API调用和内核启动的完整范围，其特点包括：

范围关联：指标与整个范围而非单个内核关联
并行支持：允许非序列化执行内核
内存管理：根据需要保存和恢复主机和设备内存

这种机制特别适合分析因正确性或性能原因需要同时运行的内核。

Application Range Replay

Application Range Replay与Range Replay类似，但不修改应用程序的交互方式，也不保存和恢复内存。它通过重新运行整个应用程序来回放选定的工作负载范围，适用于分析CUDA图等复杂工作负载。

性能指标体系

硬件模型与指标结构

Nsight Compute中的大多数指标都可以通过ncu命令行的--query metrics选项查询。指标体系包含多个层次：

硬件模型：基于具体的GPU架构设计
指标结构：统一的命名和组织方式
指标解码器：将原始计数器数据转换为可理解的性能指标

特殊指标类型

Launch Metrics

launch__*指标在每次内核启动时自动收集，无需额外重播，包括：
– 网格大小
– 块大小
– 其他内核启动参数

这些指标可以使用CUDA占用计算器进行预计算。

Warp Stall Reasons

Warp停滞原因指标通过warp调度程序状态采样收集，帮助识别并行执行中的瓶颈：

smsp__pcsamp_warps_issue_stalled_barrier：warp在CTA屏障处等待同级warp时陷入停滞
优化建议：将工作划分为统一的工作负载块，考虑将大块(512+线程)拆分为更小组

设备属性指标

device__attribute_*指标表示CUDA设备属性，直接从CUDA驱动程序获取，无需内核重播。

采样机制

Nsight Compute支持两种主要的采样方式：

PM采样

通过固定间隔对GPU性能监视器进行采样，生成包含值和时间戳的实例化指标。这种方式能够在时间线上可视化性能数据，帮助理解工作负载在运行时的行为变化。

Content Image 7417

Warp采样

在固定周期间隔下，每个流式多处理器选择一个活动warp，输出程序计数器和warp调度器状态。采样间隔根据设备规模变化：
– 小型设备：每32个周期
– 大型设备：每2048个周期

可重现性配置

为确保分析结果的可重现性，Nsight Compute提供了多种配置选项：

序列化控制

控制内核执行的序列化方式，确保性能分析的一致性。

时钟控制

精确控制GPU时钟频率，确保性能测量的准确性。

缓存控制

管理GPU缓存状态，避免缓存污染对性能分析结果的影响。

持久模式

保持GPU在高性能状态，避免动态频率调整影响性能测量。

多实例GPU支持

Nsight Compute对多实例GPU(MIG)提供完善支持，允许将单个GPU划分为多个CUDA设备：

GPU实例划分

第一级：GPU拆分为一个或多个GPU实例
第二级：每个GPU实例进一步划分为计算实例

资源分配

SM分配：每个计算实例拥有独占的SM访问权限
内存共享：同一GPU实例中的计算实例共享内存和带宽

这种架构支持在单个物理GPU上同时运行多个独立的CUDA应用，提高资源利用率。

性能可视化工具

屋顶线图

屋顶线图是GPU性能分析的重要可视化工具，它将以下要素组合在一个图表中：

GPU峰值性能：理论最大计算能力
内存带宽：数据传输速率限制
算术强度：计算工作量与内存流量的比率

这种可视化方式能够直观地展示内核性能与理论极限的关系，帮助识别性能瓶颈的根本原因。

内存图表

内存图表提供GPU各内存子单元的性能数据可视化，包括：

传输大小：数据传输量
命中率：缓存访问效率
请求数量：内存访问频次

内存表格

内存表格以详细表格形式展示各内存单元的指标：

共享内存表格

显示共享内存的分配、使用情况和性能特征，帮助优化共享内存访问模式。

L1/TEX缓存表格

展示一级纹理缓存和L1缓存的性能数据，包括缓存命中率、传输延迟等指标。

L2缓存表格

提供L2缓存的详细分析，包括缓存策略、驱逐模式等高级特性。

设备内存表格

展示全局内存访问的详细指标，帮助识别内存带宽瓶颈和数据局部性问题。

实践建议

分析策略

快速概览：使用基础指标集进行初步分析
深入分析：针对识别的瓶颈选择相关section
精确测量：使用完整指标集进行最终优化

性能优化方向

基于Nsight Compute的分析结果，开发者可以重点关注以下优化方向：

warp效率：减少warp停滞，提高指令并行度
内存访问：优化数据局部性，提高缓存命中率
资源利用：平衡SM占用率和内存带宽使用

工具链集成

将Nsight Compute集成到开发流程中，建立性能回归测试机制，确保优化成果的可持续性。

Content Image 7418

结论

Nsight Compute作为NVIDIA官方的GPU性能分析工具，提供了全面的内核分析能力。通过深入理解其指标收集机制、重播技术和可视化工具，开发者能够准确识别CUDA程序的性能瓶颈，制定有效的优化策略。

掌握Nsight Compute的使用方法不仅需要理解其技术原理，更需要在实际项目中积累经验，建立系统的性能分析方法论。随着GPU架构的不断演进，Nsight Compute也在持续更新，开发者应关注最新版本的功能特性，充分利用其分析能力。

关键字：Nsight Compute, GPU性能分析, CUDA优化, 内核profiling, 指标收集, 重播机制, 内存优化, 屋顶线图, Warp效率, 多实例GPU

引言