k8s集群gpu应用调用时报错,initialization error: nvml error: driver/library version mismatch: unknown 排查及解决办法,另外问题驱动被替换根源在于自动更新unattended-upgrades 服务未关闭,需要控制更新类别或直接停用。
k8s集群gpu应用调用时报错,initialization error: nvml error: driver/library version mismatch: unknown 排查及解决办法,另外问题驱动被替换根源在于自动更新unattended-upgrades 服务未关闭,需要控制更新类别或直接停用。
关于oracle-linux 8.9和9.4 自带2个内核的一点发现和介绍
使用nerdctl + buildkitd 构建多平台架构的容器镜像
背景: 过去2-3年,不时会搞虚拟机容器的 GPU。最早从小组的老旧卡 TITAN Xp 开始,后面接触了内外部环境的一些卡,比如 3080、4090、L40S、Tesla P4、P80、K100、A6000,甚至还碰到了一张禁售的卡,顺便说一句,装这张卡的驱动真是费劲,由于电源和nvlink的关系,还出现了掉卡的情况,最终请了大佬出马才搞定。 开始的时候,虚拟机用的是 ESXi 7.0 版本,但是 GPU 的支持有问题。有一台机器是独立使用的,还有一张卡是通过虚拟化 GPU 软件 Bitfusion 分给多个虚拟…
背景 有个 k8s 项目点火节点使用了docker 仓库 https://docs.docker.com/registry/ ,流水线的镜像会存放到这里,简单易用嘛,当然正式环境大家都推荐用harobr 仓库了,直到有一天磁盘满了,于是准备清理,发现了一系列问题,补记一些,实际上发生在11月1号的折腾记录。 准备清理 1,清理脚本v1跑一下 [crayon-670270d1b2b9b649680743/] 有个小提示manifest_unknow oci mainfest found ,but acc…