腾讯云- GPU云服务器使用率显示100%

个人博客 575 0

现象描述

使用 GPU 计算型实例的过程中,在系统内部使用 nvidia-smi 查看 GPU 状态时,可能遇到没有运行任何使用 GPU 的应用,但 GPU 使用率显示100%的情况。如下图所示:
腾讯云- GPU云服务器使用率显示100% 第1张

可能原因

实例加载 NVIDIA 驱动时,ECC Memory Scrubbing 机制造成。

解决思路

在实例系统内执行 nvidia-smi -pm 1 命令,让 GPU Driver 进入 Persistence 模式。

处理步骤

  1. 登录 GPU 计算型实例,执行以下命令:

    nvidia-smi -pm 1

    腾讯云- GPU云服务器使用率显示100% 第2张

  2. 执行以下命令,检查 GPU 使用率:

    nvidia-smi

    GPU 使用率正常,如下图所示:
    腾讯云- GPU云服务器使用率显示100% 第3张

标签: 腾讯云

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~