背景

入行这么多年，一直混迹在网络管理或最近数年K8S 私有化部署的软件层面。这两年虽然也开始折腾大模型，跟英伟达、沐曦、壁仞、燧原、天数（及其各类马甲）GPU 打交道，但主要集中在k8s 、驱动和模型适配的“软”层面上。

没成想，2025年底的最后一个多月，生活给了我一个大惊喜。我不小心一脚跨进了 GPU 硬件基础设施的深水区。正如标题所言，这是一场关于“AI 基础设施体验”的深度体验。

*(注：为了保住饭碗，具体客户和项目名已隐去，以下内容纯属硬核技术流水账)*

第一幕：销售嘴里“半天”的活儿

故事的开始总是极其草率。

某个周四晚上，大概8点半，回家的地铁上，领导电话来了：“郊区机房有批 GPU 集群，你过去支持下性能测试就行，半天，顶多一天。”

我看着手机屏幕，心想：*真的是去机房跑个脚本的事吗？* 领导也表示怀疑，说去现场看了就知道了。

随后发来一张截图，上面列着几个生僻的测试名称和几个模糊不清的压测指标——这就是我当时的全部情报。当晚，我硬是靠着搜索引擎，把这些工具一个个下载下来，折腾到凌晨12点多，才勉强把测试环境包装进U盘。

第二天，揣着那个存满“弹药”的U盘，我满怀信心地杀向机房所在地。

到了现场，发现我前一晚准备的U盘工具白费了，这里基本都有。跟驻场工程师和项目经理一聊，冷汗就下来了。还卡在dhcp 装机这个阶段摸索中，甚至连装机后的 ip地址都不敢固定，结果后面一堆冲突，测试基本是在u盘系统下搞的，这哪是性能测试啊，这分明是从零开始搞基建！

那一刻，我深刻领悟了一个真理：销售的嘴，骗人的鬼。

中午我意识到事情的严重，我厚着脸皮电话把领导请过来支援，第一天，我们直接干到凌晨3点。接下来的周末简直就是噩梦：3天睡了16小时，凌晨的机房边上的小黑屋成了第二个家。周日中午，销售和高层终于拉了个会议，把事情的全貌托盘而出——虽然晚了点，但好歹后方支援团队终于进来了。

接下来的十几天，凌晨1-3点下班是常态，甚至后面客户叫停了几天让我们短暂回血后，又是无休止的现场奋战。

第二幕：机房里的“冰火两重天”与听觉轰炸

虽然大部分时间我都在机房外的工作间里敲键盘，但只要进机房排查网口、模块或线路，那就是一场肉体的修行。

你要问我机房的体感？那是冰火两重天：机器前面吹过来的风是刺骨的冷，机器后面排出来的风是滚烫的热。

你要问我机房的听觉？那是一场无休止的工业噪音。
整个机房的噪音从未低于过 80 分贝，一旦走到机器附近，基本都在 90 分贝上下徘徊。最要命的是某款 B 卡机器，开关机的时候简直像起飞一样，直接干到了 100 分贝以上。

*(此处插入手机分贝计截图为证：app提醒我是“割草机”、“地铁列车”的场景)*

每次进去排查，就像站在地铁隧道里等车。当天回家后我老实了，立马下单了好几副便携式降噪耳塞。后来偶尔进机房，哪怕只待几分钟，我也一定把耳塞塞得紧紧的。

有时候站在那轰鸣的机柜前，我不禁在想：要是这些机器将来交付后满负荷跑起来，这附近的噪音该有多恐怖啊？

第三幕：我在机房干了啥？（AI 也没我想的那么聪明）

这一个多月，我到底在搞什么？看着这张充满错误的 AI 生成示意图（凑合看吧），我把这数百台设备（月底远程支持超数千台）的坑坑洼洼大概梳理了一下。

这张图是ai 画的，有不少错误，仅供参考。

1. 物理装机与“灵魂”初始化

首先是纯体力与脑力的结合。配合完成全部 GPU 服务器的上架、理线、上下电。（其实这部分是服务器厂商和机房运维等工程师干的，这样写，显得自己也吃了体力上的苦）
针对某2款高端卡 H 卡和 B 卡两种机型，因为规格不同，我们对每批机器进行差异化 BIOS 配置、网卡模式切换、启动顺序调整。
后来为了不被累死，眼睛不瞎，我写了几个脚本来采集 BMC 地址和业务网卡 MAC 地址还有其他信息。那一刻，效率提升不说，还没了人工手抄的差错，我觉得我终于开始有些收获了。

2. 网络“迷宫”搭建与玄学排查

接下来是 IB（InfiniBand）网卡和第二业务网的静态 IP 配置。
这块最折腾，特别是那几十台 B 卡机器，IB 卡地址配置后各种报错down。

互换排除法：排查掉卡或 IB 卡不通，很多时候是光纤模块或线的问题。这时候就得像换灯泡一样，在机房里把模块或线拔来拔去，通过互换定位故障点。
重启大法失灵：软件层面上故障，我们没招后一般会重启解决，ib 卡这边不吃这一套，越重启，掉的卡越多。然后又陷入回机房检查模块和线路的循环。
冷重启的魔力：最近发现了几台奇怪的机器，某几个IB 卡down或者 GPU 掉卡，厂商报修换了模块都不行。结果同事试着冷重启主机（完全断电再上电），居然就好了！看来与我们常说的重启大法不一样，硬件有时候也需要“断电重启”这一招大杀法。

最后配合客户做完 GPU 节点的 IB 网络连通性测试和误码率测试或多机测试，针对发现的网段不通问题及时反馈并协助排查。

3. 压测支持与掉卡“惊魂”

早期全程跟进 GPU 集群压测、装机，从单节点到多机分布式。
过程中不仅调脚本，还得处理各种奇葩问题：SSH 连不上、IB 网卡模式抽风、GPU 驱动兼容性冲突。
最惊心动魄的是，临近第一波交付前一个周末，上午过来发现数百台节点有“掉卡” 而且ib卡名也全变了，发现压测的工程师半夜干了一个我至今没搞清具体啥破坏的事，反正我排查的现象是某个服务停了。这可是大事，我立即摇人，排查修复，下午确保集群相关服务正常，ib 卡全部测通，不然验收这关过不了。

4. 自动化“外挂”

为了省事，我定制了几个小镜像，借用 BMC 挂载 ISO 的能力，一口气配置好 2 块业务网卡（后期的存储服务器甚至得配 4 块）。ps. 这2波机器没走pxe 装机，直接用了厂商的u盘装机，没有配置网络。
这一趟下来，大概写了 10 多个大小脚本。坦白说，其中一半的功劳得算在 AI 头上——毕竟我也是边问 AI 边写代码，主打一个“人机合一”。

第四幕：两种“心酸”的碰撞

回想起这两年的技术经历，真是两种不同的折磨：

以前适配国产 GPU 时，心酸在于“脑子累”。
那时候面对的是一个个莫名其妙的驱动报错、框架不兼容。你在屏幕前死磕代码，联系厂商工程师要文档，那种无力感是逻辑层面的。你是在跟软件的缺陷博弈。

现在搞英伟达硬件基建，心酸在于“身子累”。
现在是物理层面的攻击。你要忍受 100 分贝的噪音，忍受忽冷忽热的风，还要在几千根线缆里排查那个松动的模块。虽然英伟达的生态相对成熟，驱动问题少些，但当硬件规模上来后，物理连接、散热、电源、信号干扰……任何一个物理环节出问题，都会让你在机房里走到腿断。

以前是“为什么代码跑不通”的焦虑，现在是“为什么这块灯不亮”的崩溃，更崩溃的是，模块所有灯都正常，为何不通。可以说，一个折磨灵魂，一个折磨肉体。

第五幕：当前卡住的 BOSS（Supermicro SUM vs MFT）

虽然流程基本跑通了，但还留着一个让我头秃的遗留问题，特此记录，恳请各路大神指点：

【场景描述】
H 服务器插了 10 张 CX-7 网卡：

Slot 9 和 11：作为业务网卡；
其他 8 张：给 GPU 用的 IB 卡。

网卡部分架构如下图

【核心痛点】
PXE 装机前，必须先把业务网卡模式和EFI Retry以及业务网卡启动顺序改对，否则装机会卡住，目前是纯人工手动设置的。

【目前的坑】
我研究数天 Supermicro Update Manager (SUM)，发现这玩意儿在 UEFI BIOS 下搞不定这个事。问了几个 AI，它们众口一词：“你自己定制个包含 mft（主要是 mlxconfig）的工具，再加一系列脚本和镜像来实现。”

我这几天在就在这一步死磕摸索中。如果有大佬路过，欢迎不吝赐教！

总结

回想这一个多月，从最初某人口中的“半天兼职”，到现在硬刚几千台设备的 AI 基础设施建设。
虽然过程极其熬人，被噪音轰炸，被冷热交替折腾，看着凌晨三四点的机房天花板和机房外的小黑屋怀疑人生，回家后，发现附近的早餐点都开始营业了，你是啥感受，但看着集群绿灯常亮、压测通过的那一刻，那种成就感也是实打实的。

2025 的结尾，虽然没有诗和远方，但有 GPU、有脚本、有降噪耳塞（顺带最近2周还给老婆和自己各整了一幅降噪耳机），还有一群一起熬夜的兄弟，挺好。