文章目录
新矿机到货先做带载验收
箱号、SN、外箱压痕、封签状态、控制板版本、电源型号、算力板数量、风扇转向、进风温度、PDU 端口编号、网口灯状态、整机电流、出风温差、矿池拒绝率、现场噪声、备用风扇库存、同批次故障记录——这些变量如果没有在第一天留下记录,后面机器一旦掉算力、重启、烧线或者返修,很多问题就会变成“各说各的”。
我做矿机硬件验收,最怕的不是机器坏,而是坏得不清楚。仓库说到货没问题,机房说上架后才异常,维修说可能是供电,供应商说可能是现场温度。最后查来查去,时间花了,机器停了,责任也不好判断。
所以新矿机到场,我不建议直接拆箱上架满负载跑。越是赶着开机,越要把验收流程做细。矿机不是手机,不是开机亮屏就算合格。它要长时间吃电、出热、跑风、联网,还要在一排机器里互相影响。验收的价值,就是在机器正式参与挖矿之前,把运输损伤、供电隐患、散热短板、备件缺口尽量暴露出来。
准备:货还没到,验收条件要先到位
新批次矿机到场前,现场至少要提前确认三件事:电、风、记录方式。
电不是只看“有没有插座”。要核对配电柜容量、PDU 规格、线缆截面积、空开余量和单路负载安排。很多现场出问题,不是矿机本身不行,而是同一条线路上塞了太多机器,开机时还能跑,温度一上来、电流一抖,电源就开始保护,表现出来就是机器随机重启、算力忽高忽低。
风也不能只看“风机开着”。要提前测进风侧温度、冷热通道是否串风、机架前后距离够不够、挡风板有没有缺口。矿机散热最怕热风回流,单台机器放在空地上测试很好,上架进机柜后就开始降频,这种情况我见过很多次。验收前如果不把环境温度和风向记录下来,后面很难判断是机器散热能力差,还是现场风道没做好。
记录方式更容易被忽略。建议提前建好批次档案,每台机器至少对应 SN、箱号、机位、PDU 端口、网口、固件版本、首次上电时间、初测算力、温度、电流、异常现象。不要等出问题再补。矿场里最不值钱的是“凭印象”,最值钱的是第一手记录。
备件也要在验收前点一次。风扇、电源、控制板、网线、电源线、螺丝、扎带、标签纸、测温枪、钳形表,这些东西缺一样,现场处理速度都会慢一截。尤其是风扇和电源,属于高频消耗件,不能等坏了再下单。
执行:拆箱别急,先把运输痕迹留下
到货后第一步不是插电,而是看外观。外箱有没有变形、穿孔、受潮,封签有没有二次粘贴痕迹,托盘有没有倾斜,箱内泡棉有没有破裂。发现异常要先拍照,再拆箱。照片里最好同时带上箱号和 SN,避免后面无法对应。
拆机检查时,重点看四个位置:风扇、防护网、电源接口、算力板固定位置。风扇叶片如果有磕碰,短时间可能还能转,但高速运行后容易抖动,轻则噪声变大,重则风量不足。电源接口如果松动或有轻微烧痕,绝对不能凑合上架。算力板固定螺丝如果明显松动,要先处理,不然运输震动造成的接触问题,可能会在带载后才暴露。
上电建议分批做,不要一口气全上。先挑同批次里外观最完整的几台做样机,再抽几台箱体有轻微运输痕迹的机器做对比。这样能判断问题是个别运输损伤,还是整批机器存在共同特征。
第一次上电不要立刻超频,也不要急着改参数。先用默认配置跑一段时间,观察风扇转速、芯片温度、电源输入、电流波动和网络连接。矿池端要看有效算力和拒绝率,不能只看本地面板显示。面板算力好看,但矿池有效算力上不去,可能是网络、固件、配置或板卡不稳定。
上架时,机位编号一定要和机器 SN 绑定。以后巡检看到某台机器出风温度异常,能马上知道它是哪一批、哪一天到货、用的是哪个电源端口、之前有没有返修记录。没有这层绑定,巡检就是在机房里找猜谜题。
检查:带载验收要看热、电和故障重复性
矿机真正的验收,不是开机十分钟,而是带载运行后看状态是否稳定。我的习惯是至少观察一个完整温度变化周期,比如白天热、夜里凉,或者机房风机调速前后各跑一段。条件允许的话,新批次机器最好连续跑满 24 小时再算初验通过。
散热检查不能只盯最高温。要看进风温度和出风温度差值,看同一排机器之间温度是否明显不一致,看风扇转速是否长期顶满。如果某台机器温度不算最高,但风扇一直满转,说明它可能已经在用噪声和功耗硬扛散热。这样的机器短期能跑,后面更容易风扇损耗、灰尘堆积后降频。
供电检查要看电流稳定性和接头温度。钳形表测出来的数据,比“机器在线”更可靠。PDU 插头、空开、接线端子都要摸排温升,当然不能徒手冒险,应用测温工具。接头发热往往不是一天烧坏,而是一点点变色、变脆,最后在高负载时出事。
维修判断要看异常能不能复现。一台机器偶尔掉线,先不要马上判定坏板。可以换网线、换 PDU 口、换机位、换电源线,记录每次变化后的结果。如果故障跟着机器走,更像硬件问题;如果故障留在机位上,就要查网络、供电或风道。
备件在这个环节也要跟着动。比如同批次有两台风扇异响,就要检查备用风扇数量是否够支撑后续巡检;如果电源保护频繁出现,就要确认同型号电源是否有可替换件。验收不是为了把坏机器挑出去就结束,还要判断这批机器未来一个月可能消耗哪些备件。
巡检:上架后的问题,多半藏在小变化里
机器通过初验后,并不代表可以完全放手。新批次上架后的前三天,巡检频率要高一些。很多问题不是第一小时出现,而是在灰尘、热量、电流冲击和网络波动叠加后露头。
巡检时不要只看掉线列表。要盯几类小变化:同一台机器风扇转速逐日升高,算力板温差扩大,拒绝率缓慢上升,电源外壳温度比旁边机器高,某个 PDU 端口附近出现焦味,某一排机器总在下午降频。这些都比“彻底宕机”更早提醒你现场哪里不对。
对维修工程师来说,最省时间的做法是把常见故障拆成可替换路径。风扇问题先换风扇,电源异常先换电源,网络波动先换线和端口,板卡异常再进入深修。不要一上来就拆到最深处。拆得越多,引入新问题的机会越多。
备件摆放也要有讲究。高频件放现场,低频贵重件入库登记。风扇、电源线、网线、常用工具应该让值班人员能快速拿到;控制板、算力板、电源模块则要有出入库记录,避免今天借一块、明天换一块,最后谁也说不清哪台机器用过什么件。
回滚和复盘:别让一批机器拖着全场试错
如果新批次机器出现集中异常,不要硬撑着全场继续跑。验收工程师要有回滚方案:先把异常机器从满负载状态降下来,必要时下架隔离;同批次未上架机器暂停投入;已经上架的机器按 SN 做标记,分组观察。
回滚不是认输,而是减少损失。比如发现某批电源在高温环境下保护频繁,就不要继续把它们塞进最热的机位;发现某批风扇轴承噪声偏大,就要先补备件,再决定是否继续扩大上架;发现某个固件版本导致温控策略异常,就应保留可用版本,别在全场一键更新。
复盘时要把结论写得具体。不要写“散热不好”,要写“第三排上层机位下午两点后进风温度高 4 到 6 度,7 台机器风扇长期满转”;不要写“供电不稳”,要写“PDU-B12 至 B16 端口电流波动明显,两个插头温升异常”;不要写“机器质量一般”,要写“同批次 60 台中 5 台风扇异响、2 台电源保护、1 台算力板识别异常”。
这些记录会直接影响下一批采购、备件比例和机房改造。矿机硬件管理不是把机器买回来就完事,而是让每台机器从到货那一刻起就有档案、有机位、有状态、有处置记录。
今天如果有新矿机到场,建议先做一个动作:抽出首批样机,按 SN 绑定机位和 PDU 端口,默认参数带载跑满一轮温度变化,再决定是否整批上架。别用全场收益去赌一批新机器“应该没问题”。验收做慢半天,往往能少停很多天。
