典型使用流程

背景信息

GPU设备透传的典型使用流程如下:
  1. 启用物理机IOMMU设置。
  2. 设置ROM (可选)。
  3. 云主机加载物理GPU。
  4. 云主机安装GPU设备驱动。
  5. 获取GPU监控和报警 (可选)。

操作步骤

  1. 物理机启用IOMMU设置。
    1. 确保物理机BIOS已开启Intel VT-d / AMD IOMMU
    2. ZStack Cloud开启物理机IOMMU设置
      ZStack Cloud主菜单,点击资源中心 > 硬件设施 > 物理机,进入物理机界面。点击物理机名称,进入物理机详情页。查看IOMMU启用状态开关是否打开。如未打开,可点击开启,并重启物理机生效。
      图 1所示:
      图 1. 已添加物理机启用IOMMU设置


    3. 在物理机详情页,检查IOMMU就绪状态是否为可用
      IOMMU就绪状态为不可用,可能是因为以下原因:
      • 开启IOMMU启用状态后未重启物理机,重启即可。
      • 物理机配置错误,请进入物理机BIOS并开启Intel VT-d / AMD IOMMU配置。
  2. 设置ROM (可选)。

    ROM文件是用于物理GPU透传的配置文件。ROM文件上传后,将直接更新到已添加的规格对应的物理GPU中。

    ZStack Cloud已内置基础ROM文件,满足绝大部分物理GPU透传。若用户需要使用其他ROM文件,请自行GPU在供应商官网获取所需的ROM文件并上传。

    ZStack Cloud主菜单,点击资源中心 > 云资源池 > 计算配置 > GPU规格,进入GPU规格界面,选中需要设置ROM的物理GPU规格并点击批量操作 > 设置ROM按钮,在弹出的设置ROM页面上传ROM文件。

    图 2所示:
    图 2. 设置ROM


    说明:
    • 请务必上传与物理GPU匹配且版本信息正确的ROM文件,否则可能导致透传后的物理GPU不能正常工作。
    • 最新上传的ROM文件会覆盖之前的ROM文件。
  3. 云主机加载物理GPU。

    ZStack Cloud主菜单,点击资源中心 > 云资源池 > 虚拟资源 > 云主机。在云主机界面,找到需加载物理GPU的云主机,点击操作 > 系统配置 > 设置GPU策略。弹出设置GPU策略界面。

    支持以下GPU加载策略:
    • 按GPU规格加载:选择一个物理GPU规格,系统将为云主机加载一个匹配改规格的物理GPU
      说明: 按规格加载时,可选择关机是否自动卸载GPU设备。
      • 如选择自动卸载,云主机关机后将释放该GPU设备,云主机开机后,系统将重新分配一个GPU设备
      • 如选择不自动卸载,云主机关机后将继续保有当前GPU设备。但如发生意外关机,高可用功能将不可用
    • 指定GPU设备加载:为云主机加载指定的GPU设备
  4. 云主机安装GPU设备驱动。
    为正常使用透传的GPU设备,需为云主机安装GPU驱动。不同GPU型号或操作系统对应的驱动安装流程可能不同,建议参考GPU设备官方资料或联系厂商获取帮助。本场景以Linux云主机安装NVIDIA GPU驱动为例进行介绍。
    说明: 如使用双芯片AMD卡 (AMD Firepro S7150 X2) ,并将其对应的两个物理GPU设备分别透传给不同云主机使用,请确保为云主机安装相同版本的驱动,以保证正常获取GPU监控数据。
    1. 获取驱动安装相关文件
      获取GPU设备匹配的显卡驱动和CUDA toolkit文件。
    2. 禁用nouveau驱动
      NVIDIA显卡的官方驱动和系统自带的nouveau驱动存在冲突。执行lsmod | grep nouveau命令,若有输出内容表示存在nouveau驱动,可参考以下方法禁用nouveau驱动;若不存在nouveau驱动,跳过此步骤即可。
      # touch  /etc/modprobe.d/nvidia-installer-disable-nouveau.conf  #创建文件,将以下两行内容保存至文件中  blacklist nouveau  options nouveau modeset=0
    3. 安装gcc、kernel-devel、kernel-headers
      依次执行以下命令,安装gcc、与内核版本一致的kernel-devel和kernel-headers。建议使用相同版本的ISO配置本地源安装。
      # yum install gcc kernel-devel-$(uname -r)  kernel-headers-$(uname -r)     #重构 initramfs 镜像 # cp /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak # dracut /boot/initramfs-$(uname -r).img $(uname -r) --force       #只使用文本模式重启云主机 # systemctl set-default multi-user.target  # init 3  # reboot   # lsmod | grep nouveau    #云主机重新启动后,检查nouveau驱动应该没有被使用
    4. 安装NVIDIA 驱动
      将下载的驱动包拷贝至云主机系统内,依次执行以下命令运行驱动文件:
      # chmod +x NVIDIA-Linux-x86_64-346.47.run    #配置可执行权限 # ./NVIDIA-Linux-x86_64-346.47.run      #运行驱动文件
      命令执行后将开始解压驱动包并进入安装步骤,安装过程可能出现一些警告,依次确认即可,不影响驱动安装。若出现error报错,请参考表 1检查环境。
      表 1. 报错处理
      报错 解决方案

      ERROR: Unable to find the kernel source tree for the currently running kernel. Please make sure you have installed the kernel source files for your kernel and that they are properly configured; on Red Hat Linux systems, for example, be sure you have the 'kernel-source' or 'kernel-devel' RPM installed. If you know the correct kernel source files are installed, you may specify the kernel source path with the '--kernel-source-path' command line option.

      需要确保kernel、kernel-headers、kernel-devel是否均已安装,并且版本号完全一致

      ERROR: The Nouveau kernel driver is currently in use by your system. This driver is incompatible with the NVIDIA driver, and must be disabled before proceeding. Please consult the ow to correctly disable the Nouveau kernel driver.

      需要禁用nouveau驱动

      ERROR: Failed to find dkms on the system!

      ERROR: Failed to install the kernel module through DKMS. No kernel module was installed; please try installing again without DKMS, or check the DKMS logs for more information.

      需要安装DKMS,它可以帮我们维护内核外的驱动程序,在内核版本变动之后可以自动重新生成新的模块

      ERROR: Unable to load the kernel module 'nvidia.ko'. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.

      执行命令./NVIDIA-Linux-x86_64-384.98.run --kernel-source-path=/usr/src/kernels/3.10.0-XXX.x86_64/ -k $(uname -r)即可
    5. 检查驱动安装情况
      分别执行以下两条命令,检查驱动安装情况。若返回结果能够显示显卡的型号信息,说明驱动已经安装成功。
      # lspci |grep NVIDIA # nvidia-smi
    6. 安装CUDA toolkit
      将下载的驱动包拷贝至云主机系统内,依次执行以下命令执行驱动文件:
      # chmod +x cuda_8.0.61_375.26_linux.run      #配置可执行权限 # ./cuda_8.0.61_375.26_linux.run     #运行驱动文件
      安装过程需要配置一些参数,请参考下图进行配置,如图 3所示:
      图 3. 安装CUDA toolkit


    7. 配置环境变量
      执行vim /root/.bashrc命令,将以下内容保存至此文件,完成环境变量配置:
      #gpu driver export CUDA_HOME=/usr/local/cuda-8.0   export PATH=/usr/local/cuda-8.0/bin:$PATH   export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH   export LD_LIBRARY_PATH="/usr/local/cuda-8.0/lib:${LD_LIBRARY_PATH}"
      环境变量添加完成后立即生效,可执行以下命令进行验证测试:
      # source ~/.bashrc # cd /usr/local/cuda-8.0/samples/1_Utilities/deviceQuery # make # ./deviceQuery
  5. (可选) 获取GPU监控和报警
    如需查看GPU实时监控并获取报警推送,可参考本步骤配置。如不需要,可跳过本步骤。
    1. 安装云主机性能优化工具
      不同操作系统安装性能优化工具的流程不同,详情请参考《用户手册》云主机性能优化工具章节
    2. 查看GPU设备监控
      ZStack Cloud主菜单,点击资源中心 > 硬件设施 > 计算设施 > GPU设备。在GPU设备界面,点击需要查看的GPU名称,进入GPU详情页,即可查看实时负载监控
    3. 创建GPU设备报警器
      ZStack Cloud主菜单,点击平台运维 > 云平台监控,进入云平台监控模块。创建通知对象和报警器,详情请参考监控报警功能使用教程

历史文档

学习路径

ZStack Cloud 产品学习路径

版本号:

5.3.0
4.8.10
常见问题
常见问题
文档反馈

ZStack Cloud 产品学习路径

快速梳理文档,点击相应文本链接,快速跳转到相应文档的页面,学习 ZStack Cloud 产品。

我知道了

升级提醒

若您选择升级至4.0.0及之后版本,请注意以下功能调整:

1. 云路由器全面升级为VPC路由器,云路由网络全面升级为VPC网络,不再单独设云路由器页面。升级全程无感知,相关业务不受任何影响。

2. 企业管理账号体系取代用户组与用户,不再单独设用户/用户组页面,不可再使用用户/用户组账号登录云平台。升级前,请先将“用户组与用户”纳管的账号数据妥善迁移至“企业管理”纳管,再执行升级操作。注意:对于admin创建并具备admin权限的用户账号同步取消,如有需要,可使用企业管理账号体系中的平台管理员实现相同功能。

3. 调整AD/LDAP与账户的对接管理方式,统一由企业管理纳管,不再单独设AD/LDAP页面。升级前,请先将“账户”对接纳管的AD/LDAP账号数据妥善迁移至“企业管理”纳管,再执行升级操作。

如对上述升级提醒有任何疑问或需要升级帮助,请联系ZStack官方技术支持

下载ZStack企业版

您已填写过基本信息?点击这里

姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

下载链接将会通过邮件形式发送至您的邮箱,请谨慎填写。

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

下载ZStack企业版

还未填写过基本信息?点击这里

邮箱或手机号码格式错误
同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

验证手机号
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

登录观看培训视频
仅对注册用户开放,请 登录 观看培训视频

业务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

其他(漏洞提交、投诉举报等)

400-962-2212 转 3
ZStack认证培训咨询
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

ZStack学院:

training@zstack.io
申请ZStack多机版
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

其他(漏洞提交、投诉举报等)

400-962-2212 转 3
立即咨询
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

其他(漏洞提交、投诉举报等)

400-962-2212 转 3
培训认证合作伙伴申请
姓名应该不少于2个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
邮箱格式错误
城市名称不应该少于2个字符
公司名称不应该少于4个字符
职位名称不应该少于2个字符

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

商务联系:

channel@zstack.io
ZStack&工信人才联合证书申请
已获得ZStack原厂证书
未获得ZStack原厂证书
请填写您的基本信息
姓名应该不少于2个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
邮箱格式错误
城市名称不应该少于2个字符
公司/学校名称不应该少于4个字符
证书类型
ZCCT
ZCCE
ZCCA
ZCPC-ISP
申请ZStack&工信人才联合证书须支付工本费,是否可以接受
同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

商务联系:

channel@zstack.io

下载链接已发送至您的邮箱。

如未收到,请查看您的垃圾邮件、订阅邮件、广告邮件。 当您收到电子邮件后,请点击 URL 链接,以完成下载。

下载链接已发送至您的邮箱。

如未收到,请查看您的垃圾邮件、订阅邮件、广告邮件。
或点击下方URL链接 (IE内核浏览器请右键另存为), 完成下载:

感谢您使用 ZStack 产品和服务。

成功提交申请。

我们将安排工作人员尽快与您取得联系。

感谢您使用 ZStack 产品和服务。

信息提交成功。

我们将安排工作人员尽快与您取得联系,请保持电话畅通。

感谢您使用 ZStack 产品和服务。

智能助手

预约沟通

联系我们

业务咨询
400-962-2212 转 1
售后咨询
400-962-2212 转 2
其他业务(漏洞提交、投诉举报等)
400-962-2212 转 3

联系我们

回到顶部

产品试用申请
请选择您要试用的产品
ZStack Cloud 企业版
ZStack Cloud 混合云版
ZStack Cloud 基础版
ZStack Cloud 标准版
请填写您的基本信息
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

商务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

商务联系:

sales@zstack.io

成功提交申请。

我们将安排工作人员尽快与您取得联系。

感谢您使用 ZStack 产品和服务。