一次痛苦的clusterloader压测集群经历,从构建二进制开始遇坑,压测更是调试无数次才搞明白如何配置,跑通流程。
一次痛苦的clusterloader压测集群经历,从构建二进制开始遇坑,压测更是调试无数次才搞明白如何配置,跑通流程。
背景: 继上次metax c500上跑了deepseek 70b蒸馏模型后,遇到一个新任务,要将卡切分为vgpu模式,也就是metax 的 VF模式,看了资料似乎很简单。 安装metax 的 gpu operator ,然后修改driver-config 的 ConfigMap 即可,实际上,这里又卡了我一天。
国产壁仞卡biren110e的简单deepseek-r1蒸馏模型体验,测试了8B,32b小模型。
沐曦cx 500 部署 DeepSeek-R1-Llama-70B 模型不完全实验记录,4卡效果也还不错,8卡提升很明显。
记一次H20显卡驱动安装踩坑,nvidia-fabricmanager 和驱动版本对上很重要。