XID 13: GR: SW Notify Error
常见原因:一般为用户应用程序故障。通常这是一个数组下标越界错误。也有可能是非法指令,非法寄存器等其他情况。
极少数情况下 会出现硬件故障或者软件错误导致XID 13
NVIDIA措施:在 cuda-gdb 或 Compute Sanitizermemcheck工具中运行应用程序,或者使用 运行应用程序CUDA_DEVICE_WAITS_ON_EXCEPTION=1,然后稍后使用 cuda-gdb 连接
如果前两个结果没有定论,则提交错误报告,以消除潜在的 NVIDIA 驱动程序或硬件错误。
备注:Compute Sanitizermemcheck工具会检测正在运行的应用程序,并报告哪一行代码执行了非法读取。
XID 31: Fifo: MMU Error
常见原因: 一般为应用程序级别故障。 当MMU上报故障时,当gpu芯片上的应用程序进行非法地址访问时,会触发此类故障并记录
NVIDIA措施:在 cuda-gdb 或 Compute Sanitizermemcheck工具中运行应用程序,或者使用 运行应用程序CUDA_DEVICE_WAITS_ON_EXCEPTION=1,然后稍后使用 cuda-gdb 连接
如果前两个结果没有定论,则提交错误报告,以消除潜在的 NVIDIA 驱动程序或硬件错误。
备注:Compute Sanitizermemcheck工具会检测正在运行的应用程序,并报告哪一行代码执行了非法读取。
XID 32: PBDMA Error
常见原因: 一般是硬件问题。当 DMA 控制器报告故障时,会记录此事件,该控制器通过 PCI-E 总线管理 NVIDIA 驱动程序和 GPU 之间的通信流。这些故障主要涉及PCI的质量问题,一般不是由用户应用程序操作引起的。
NVIDIA措施:无
备注:无
Xid 43: Reset Channel Verif Error
常见原因:当用户应用程序遇到软件引发的故障且必须终止时,将记录此事件。GPU 保持健康状态;在大多数情况下,这并不表示驱动程序有错误,而是用户应用程序有错误。
NVIDIA措施:无
备注:无
Xid 43: Reset Channel Verif Error
常见原因:当用户应用程序遇到软件引发的故障且必须终止时,将记录此事件。GPU 保持健康状态;在大多数情况下,这并不表示驱动程序有错误,而是用户应用程序有错误。
NVIDIA措施:无
备注:无
Xid 45: OS: Preemptive Channel Removal
常见原因:当用户应用程序中止且内核驱动程序关闭在 GPU 上运行的 GPU 应用程序时,将记录此事件。Control-C、GPU 重置、sigkill 都是应用程序中止并创建此事件的示例。
在许多情况下,这并不表示存在错误,而是用户或系统的操作。
NVIDIA措施:无
备注:无
Xid 48: DBE (Double Bit Error) ECC Error
常见原因:当 GPU 检测到 GPU 上发生无法纠正的错误时,将记录此事件。这也会报告给用户应用程序。
NVIDIA措施:需要重置 GPU 或重新启动节点才能清除此错误。
备注:无
Xid 63, 64: ECC Page Retirement or Row Remapping
常见原因:当 GPU 处理 GPU 上的 ECC 内存错误时,会记录这些事件。
NVIDIA措施:无
备注:无
Xid 74: NVLink Error
常见原因:当 GPU 检测到 GPU 与其他 GPU 或 NVSwitch(通过 NVLink)之间的连接存在问题时,将记录此事件。需要重置 GPU 或重启节点才能清除此错误。
此事件可能表示链接本身出现硬件故障,也可能表示链接远端的设备出现问题。例如,如果某个 GPU 出现故障,则通过 NVLink 连接到该 GPU 的另一个 GPU 可能会报告 Xid 74,原因很简单,链接因此中断。
NVIDIA措施:如果反复出现此错误,且 GPU 重置或节点重启无法清除该情况,请联系硬件供应商寻求支持。
备注:无
Xid 79: GPU has fallen off the bus
常见原因:当 GPU 驱动程序尝试通过其 PCI Express 连接访问 GPU 并发现 GPU 不可访问时,会记录此事件。
此事件通常是由 PCI Express 链路上的硬件故障引起的,导致 GPU 因链路断开而无法访问。查看系统事件日志和内核 PCI 事件日志可能会提供有关链路故障来源的其他指示。
此事件也可能是由 GPU 硬件故障或其他驱动程序问题引起的。
NVIDIA措施:无
备注:无
Xid 93: Non-fatal violation of provisioned InfoROM wear limit
常见原因:当 GPU 驱动程序因违反使用 NVFlash 为 GPU 设置的预配置 InfoROM 磨损限制而无法更新 InfoROM 时,会记录此事件。nvflash -=elsessionstart
在大多数情况下,这并不表示驱动程序或闪存出现故障,而是 NVFlash 设置的 InfoROM 磨损保护功能的故意使用。
NVIDIA措施:无
备注:无
Xid 94, 95: Contained/uncontained ECC errors
常见原因:当 GPU 驱动程序处理支持 ECC 错误遏制的 GPU 中的 ECC 内存错误时,会记录这些事件(从 NVIDIA® A100 GPU 开始)。
NVIDIA措施:无
备注:无
Xid 110: Security fault error
常见原因:除非发生硬件故障,否则此事件并不常见。
NVIDIA措施:要恢复,请恢复任何最近的系统硬件修改并冷重置系统。如果此操作无法解决问题,请联系硬件供应商寻求帮助。
备注:无
Xid 119, 120: GSP RPC Timeout / GSP Error
常见原因:当 GPU 的 GSP 核心上运行的代码出现错误和/或等待 GPU 的 GSP 核心响应 RPC 消息时发生超时时,可能会记录其中一个或两个事件。
NVIDIA措施:如果错误仍然存在,可能需要重置 GPU 或关闭节点电源
备注:无
Xid 121: C2C Link corrected error
常见原因:当 GPU 驱动程序发现 C2C NVLink 与 Grace CPU 的连接中存在已更正的错误时,可能会发生此事件。这些错误已由系统更正,不会对操作产生影响。
NVIDIA措施:可用服务窗口重置 GPU 将允许 GPU 重新训练链接
备注:无
Xid 140: ECC unrecovered error
常见原因:当 GPU 驱动程序发现 GPU 内存中存在无法纠正的错误时,可能会发生此事件,从而中断 GPU 驱动程序标记页面以进行动态页面脱机或行重新映射的能力
NVIDIA措施:重置 GPU
备注:无