背景: 继上次metax c500上跑了deepseek 70b蒸馏模型后,遇到一个新任务,要将卡切分为vgpu模式,也就是metax 的 VF模式,看了资料似乎很简单。 安装metax 的 gpu operator ,然后修改driver-config 的 ConfigMap 即可,实际上,这里又卡了我一天。
背景: 继上次metax c500上跑了deepseek 70b蒸馏模型后,遇到一个新任务,要将卡切分为vgpu模式,也就是metax 的 VF模式,看了资料似乎很简单。 安装metax 的 gpu operator ,然后修改driver-config 的 ConfigMap 即可,实际上,这里又卡了我一天。
使用Jupyter Notebook 和 code-server 过程中遇到的2个websocket相关问题及nginx 解决配置
k8s集群gpu应用调用时报错,initialization error: nvml error: driver/library version mismatch: unknown 排查及解决办法,另外问题驱动被替换根源在于自动更新unattended-upgrades 服务未关闭,需要控制更新类别或直接停用。
关于oracle-linux 8.9和9.4 自带2个内核的一点发现和介绍
使用nerdctl + buildkitd 构建多平台架构的容器镜像