1.NVIDIA注册90天免费lisence, 可获取500个测试

https://ui.licensing.nvidia.com/

image.png

注册步骤:https://docs.nvidia.com/grid/10.0/grid-software-quick-start-guide/index.html

2.vsphere 的安装:

2.1选择版本(6.7——8.4)

image.png

为何要选择6.7版本(EnterprisePlus):https://docs.nvidia.com/grid/10.0/grid-vgpu-release-notes-vmware-vsphere/index.html

image.png

2.2.vsphere官方下载测试60天的。

下载安装,略,百度一大把;

image.png

6.5版本之后,可用这个web ui登陆,熟悉下里面配置,如何生成虚机等,上传镜像:win10,win2k12 server,win2k16 server等

image.png

拓扑,分配资源:

image.png

在这里插入图片描述

实际:

image.png

VM-200.154: win10-lisence-server (java8)

VM-200.153 win2k12-vsphere-vcenter (一开始没装,调整虚拟机硬件,在ui 上不能实现,一个大坑)

VM-200.155 win2k12—测试vgpu (grid 驱动版本)

VM-200.156 linux-测试vgpu

3.开搞

vsphere6.7 安装vgpu 驱动:

开启ssh服务;

上传nvidia 驱动;

image.png

命令行操作:

SSH到ESXi,使用命令:lspci | grep NVIDIA 来检

image.png

cd /vmfs/volumes/5f11ac22-40a99ea2-38ca-1c1b0df9c665/nvidia

目录,增加可执行权限

esxcli software vib install -v /vmfs/volumes/5f11ac22-40a99ea2-38ca-1c1b0df9c665/nvidia/NVIDIA-VMware-440.107-1OEM.670.0.0.8169922.x86_64.vib —maintenance-mode

image.png

esxi主机需在维护状态(maintenance-mode ),也可以在ui 那直接点击

等待几分钟,安装成功以后会有提示信息,可能在安装信息中提示不需要重启,但是强烈建议重启一下主机来验证驱动是否正常,有碰到过重启以后驱动报错的情况。

image.png

重启完主机以后使用 nvidia-smi 命令来验证驱动是否正常,正常情况下能看到类似如下信息:

image.png

特别注意2点:

1、ECC模式是否显示off

2、默认情况下vSphere会使用vsga模式,而不是vGPU模式;

使用命令来关闭ECC,注意,启用或者关闭ECC都需要重启主机。

nvidia-smi -e 0

ECC 状态为OFF

image.png

至此,驱动安装完毕, 退出维护模式

检验下:nvidia-smi vgpu -q -s

image.png

登陆200.153 Vcenter操作 vcenter安装

image.png

定位到主机-配置-图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享“才能使用vGPU。

image.png
image.png

默认最佳性能模式,会在所有可能的GPU上去运行虚拟机,即VM1运行在GPU1、VM2运行在GPU2,以此类推,尽可能平均的分布虚拟机,不会让GPU闲着。

GPU整合模式,会在一个GPU核心上运行先启动的虚拟机,直到当前GPU没有资源才会去使用下一个GPU核心,这个模式多用在同一台服务器上运行多个vGPU profile的情况下。

PS:针对单个gpu卡,也可设置其他模式, 变更后需要重启x’org服务

image.png

4.Lisence-server 安装部署:


vm-200.154,win10 系统


安装java,设置环境变量

安装ls-winserver

image.png

image.png

image.png

在nvidia center下发权限

200.154上,hostID——mac地址

image.png

image.png
image.png

下载后,上传至200.154上

image.png

会出现,scuess ,ok

测试vm-200.155

vm-155 ,关机

编辑设置:

image.png

上传grid 驱动,安装

image.png

安装完毕

image.png

linsence注册

image.png



至此, windows 2012 server 完成!!

5.也可查看链接此处

在ESXi上安装vib时提示VibDownloadError

2021-06-21 18:22
在VMware ESXi 6.7中安装synology-nfs-vaai-plugin时出现VibDownloadError,如下:
[root@MiWiFi-R3600-srv:/tmp] esxcli software vib install -v synology-nfs-vaai-plugin-1.2-1008.vib —no-sig-check (‘synology-nfs-vaai-plugin-1.2-1008.vib’, ‘/tmp/vib_rz2zxqca’, “unknown url type: ‘synology-nfs-vaai-plugin-1.2-1008.vib’”) url = synology-nfs-vaai-plugin-1.2-1008.vib Please refer to the log fileformore details.

只需要将安装包的路径修改为绝对路径即可,如下:
esxcli software vib install -v /tmp/synology-nfs-vaai-plugin-1.2-1008.vib —no-sig-check

VMware ESXi安装NVIDIA GPU显卡硬件驱动和配置vGPU

  1. <br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649521133-d6588a96-4200-414b-9330-792aad0a6901.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=u43e30ded&margin=%5Bobject%20Object%5D&name=image.png&originHeight=104&originWidth=456&originalType=url&ratio=1&rotation=0&showTitle=false&size=37354&status=done&style=none&taskId=ub38df4db-882e-4c84-b505-dbd617cc628&title=)<br /> <br /> <br />一、驱动软件准备:从[nvidia网站下载](https://ui.licensing.nvidia.com/software)驱动,注意,和普通显卡下载驱动地址不同。<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649522316-94ae2ceb-557c-4b3d-bf37-5e182bb24ab2.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=ude43e7ae&margin=%5Bobject%20Object%5D&name=image.png&originHeight=1329&originWidth=2041&originalType=url&ratio=1&rotation=0&showTitle=false&size=831117&status=done&style=none&taskId=u1be11051-94b0-412f-9b96-f9c785f5d44&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Nvidia-GRID-Software-Downloads.jpg)<br />按照ESXi对应版本不同下载不同的安装包。安装包内含ESXi主机驱动和虚拟机驱动。<br />GPU显卡和物理服务器兼容查询:(重要:一定要查兼容,最近遇到一客户反馈安装驱动后运行nvidia-smi各种报错,最后查询是因为不兼容导致。)<br />[https://www.nvidia.com/zh-cn/data-center/resources/vgpu-certified-servers/](https://www.nvidia.com/zh-cn/data-center/resources/vgpu-certified-servers/)<br />二、安装显卡驱动<br />1、将驱动vib上传到主机的/tmp目录下,开启SSH服务,并将主机进入维护模式,使用如下命令<br />esxcli software vib install -v /tmp/****.vib #安装驱动注意使用绝对路径<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649521508-35e99e0c-a0f3-41ff-b066-b7aba10169d4.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=u8f521c31&margin=%5Bobject%20Object%5D&name=image.png&originHeight=418&originWidth=661&originalType=url&ratio=1&rotation=0&showTitle=false&size=351982&status=done&style=none&taskId=uf7c61cd7-fe2c-446d-91eb-e70225dd84f&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_15-19-07.jpg)<br />虽然安装完毕后提示Reboot required: false,但是还是建议在这个时候将主机重启一下,使主机启动后正确的加载驱动程序文件。重启后将主机退出维护模式。<br />2、正确的安装并加载驱动程序以后,我们需要启动主机的xorg服务,xorg服务是ESXi主机为虚拟机提供3D硬件加速的服务,我们必须启动该服务后才能使GPU正常工作。<br />3、以下命令可以查看主机是否正确加载了驱动程序:<br />vmkload_mod -l | grep nvidia<br />4、如下图所示:通过命令nvidia-smi来验证GPU卡是否正常工作,无报错,如图:<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649521241-b70c5278-53a2-45a2-aa71-f62ffe48774a.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=u3f15e754&margin=%5Bobject%20Object%5D&name=image.png&originHeight=562&originWidth=677&originalType=url&ratio=1&rotation=0&showTitle=false&size=338083&status=done&style=none&taskId=u9ebf1a85-1755-4b6c-82c8-31a172bbd9d&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_15-29-43.jpg)<br />5、修改图形设备活动类型:配置-图形-编辑<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649521137-680aaecb-4840-4a89-ba61-13333ab7e2e4.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=uf76d5fb9&margin=%5Bobject%20Object%5D&name=image.png&originHeight=450&originWidth=578&originalType=url&ratio=1&rotation=0&showTitle=false&size=71291&status=done&style=none&taskId=u156d8428-7edd-4988-8b72-cb07c952897&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_18-18-57.jpg)<br />默认为共享,修改成直接共享,并重启xorg服务。<br />6、编辑虚拟机<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649522020-75f18042-00cf-4d87-8d44-803a77547e40.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=u9897254b&margin=%5Bobject%20Object%5D&name=image.png&originHeight=628&originWidth=601&originalType=url&ratio=1&rotation=0&showTitle=false&size=206208&status=done&style=none&taskId=ue84086b0-04d7-487c-a3f9-3496291fe26&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_18-26-19.jpg)<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649522226-08ede413-fbc7-4f7a-b94b-26069703b943.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=u26c428ca&margin=%5Bobject%20Object%5D&name=image.png&originHeight=622&originWidth=602&originalType=url&ratio=1&rotation=0&showTitle=false&size=197963&status=done&style=none&taskId=u76a64e91-a110-4e82-9ad3-97f06bb4b37&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_18-30-33.jpg)<br />GPU配置文件为GPU显存大小,具体显存大小参考说明文档。并勾选预留所有内存。<br />7、安装虚拟机驱动,注意一定要使用安装包内对应版本的驱动(使用不同版本可能会有问题)<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649522933-f5298cde-966b-4738-962e-7339eb5ee3a0.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=u74949c0e&margin=%5Bobject%20Object%5D&name=image.png&originHeight=670&originWidth=1366&originalType=url&ratio=1&rotation=0&showTitle=false&size=381465&status=done&style=none&taskId=u9c83e336-0ae9-4075-819c-3fb179eebdc&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_18-40-39.jpg)<br />安装驱动后,重启虚拟机,在控制台界面,看到“黑屏”,这是正常的。使用远程桌面RDP协议登录,或者Horizon连接服务器的方式登录。<br />[![image.png](https://cdn.nlark.com/yuque/0/2022/png/1027938/1647649523149-82e96feb-e066-4e9d-8c81-b2b11f3bf533.png#clientId=u489406c4-531b-4&crop=0&crop=0&crop=1&crop=1&from=paste&id=ue9126dca&margin=%5Bobject%20Object%5D&name=image.png&originHeight=555&originWidth=786&originalType=url&ratio=1&rotation=0&showTitle=false&size=194619&status=done&style=none&taskId=u9d6cb36e-1eee-484f-8d54-9fdb13b8077&title=)](https://www.dinghui.org/wp-content/uploads/2020/12/Snipaste_2019-11-27_18-44-33.jpg)<br />设备管理器里面也能看到显卡已经安装成功了。<br />三、由于M60显卡特殊,正式使用时,还需要额外安装许可证服务器,另行介绍



VMware ESXi DirectPath I/O 直通GPU卡给虚拟机使用



image.png


在虚拟机中使用 GPU 主要有三种设置:DirectPath I/O、NVIDIA vGPU、vSphere Bitfusion,几个月前,已经介绍了NVIDIA vGPU部署步骤,参考:VMware ESXi安装NVIDIA GPU显卡硬件驱动和配置
有些时候,虚拟机需要独享GPU资源,那么就需要用到DirectPath I/O (直通),ESXi hypervisor 把 GPU 设备直接映射成虚机中的 GPU 设备,供应用使用。DirectPath I/O 方法通常用于高性能计算方案中,是在虚机中使用 GPU 能够达到最高性能的一种方法。(缺点:虚拟机不支持vMotion和快照)
环境:ESXi 6.7U3;NVIDIA Tesla V100 PCIe 32G。
1、登录ESXi主机,管理,硬件,PCI设备,勾选GPU卡,切换直通,会提示要求重启主机,重启主机之后,该GPU设备直通一栏显示为“活动”。
image.png

2、按常规方式新建虚拟机,添加PCI设备,选中对应GPU卡。注意,内存注意一定要勾选预留,否则开机后报错如下:无法打开虚拟机 win10 的电源。内存设置无效: 内存预留 (sched.mem.min) 应该等于内存大小 (32768)。 单击此处了解更多详细信息。
image.png
解决办法:预留所有客户机内存(全部锁定)
image.png
3、再次开机,继续报错:打开虚拟机的电源。模块“DevicePowerOn”打开电源失败。 单击此处了解更多详细信息。
image.png
解决办法:
1)先确认虚拟机是否EFI引导:编辑虚拟机 – 虚拟机选项 – 引导选项 – 固件 – EFI;
image.png
2)编辑虚拟机 – 虚拟机选项 – 高级 – 配置参数 – 编辑配置:添加以下2条;
pciPassthru.use64bitMMIO=”TRUE”
pciPassthru.64bitMMIOSizeGB=64
备注:MMIOSize设置为虚拟机分配的所有GPU显存大小的两倍
image.png
image.png
4、虚拟机安装操作系统和NVIDIA驱动之后,在虚拟机设备管理器已经能看到V100显卡了。
image.png