文章目录
矿机到货先做带载验收
进货单号、整机 SN、算力板数量、风扇转速、进风温度、出风温度、PDU 电压、单台功耗、网口灯状态、固件版本、矿池拒绝率、外壳磕碰、螺丝缺失、线束压痕、备用电源数量、备用风扇型号——这些变量如果只在脑子里过一遍,基本等于没查。矿机硬件的问题很少在开箱那一刻全部暴露,更多是在上架带载两三个小时后才露头:一块算力板掉线、一个风扇抖动、一条电源线发热,或者某批机器在同一温度下比上一批多吃 80 瓦电。
我做矿机验收时,最怕的不是机器坏,而是坏得不明显。因为明显坏的可以拒收,可以换货;不明显的混进机架,后面就会变成巡检工单、夜间告警、停机维修,最后算到矿场账上,往往比一开始多花很多。
这篇就按现场流程说:到货前怎么准备,到货后怎么执行,上架后怎么看,出现问题怎么回滚和复盘。
准备:验收区要比仓库更重要
矿机到场前,很多矿场只盯物流到哪了、司机几点到、叉车有没有安排。其实硬件验收最该提前准备的是一块干净、可通电、可记录的验收区。
这块区域不用豪华,但要满足几个条件。
第一,电要独立。验收区最好单独接 PDU,不要和已运行的机架混用一条临时线。新机批量通电时,电源瞬时拉升、插头接触不良、线缆规格不够,都可能把问题带到老机器上。验收用电要能看到电压、电流、功率,至少要有钳形表、测温枪,条件好一点可以配热成像仪。
第二,风要稳定。验收不是把机器放地上随便吹一会儿。进风温度要记录,风道不能乱。今天 22℃ 下稳定,不代表 32℃ 下也能扛住,但如果连验收区的风都忽冷忽热,后面数据就没有参考价值。尤其是水冷、油冷或改装风道的机器,验收区更要按最终上架环境模拟,不然带载结果会骗你。
第三,资料要先建。到货前就把采购批次、型号、额定算力、额定功耗、供应商、保修条件、随货配件清单建好。等车到了再临时拿手机拍照、微信群里报数,最后一定有人漏记。矿机硬件验收不是看一眼能不能亮,而是要把每台机器和每条记录绑住。后面维修、索赔、批次追踪,全靠这一步。
第四,备件要提前对型号。风扇、电源、控制板、网线、电源线、转接头这些东西,现场最容易以为“都有”,真出问题才发现接口不一样、线长不够、功率不匹配。备件不是摆在柜子里就算有,要能直接替换到这批机器上。
执行:开箱先看伤,再让机器说话
到货后不要急着上架。很多问题第一眼就能拦下来。
外包装先看四个地方:纸箱是否塌角,封条是否二次粘贴,防震泡棉是否移位,外箱 SN 和采购清单是否一致。矿机运输路上被倒放、磕碰、受潮,都可能影响内部接插件和风扇轴承。外箱有明显变形的机器,要单独放,不要混进正常批次。
开箱后看机身。外壳凹陷、风扇护网变形、散热鳍片歪斜、螺丝缺失、接口松动,这些都要拍照留档。不要觉得“能跑就行”。风扇护网压到叶片,刚开机可能只是响一点,跑两天轴承就报废;散热片变形,短时间算力正常,长时间高温下就容易掉板。
然后看内部连接。能不开盖的机型不建议随便拆,但能看到的线束、插头、算力板边缘都要查。线束被外壳压住、插头没插到底、灰尘异常、板面有潮气或白斑,都要单独记录。新机不该有明显积尘,翻新机也不能假装新机收。
通电前先做空载检查。确认电源线规格、PDU 插位、接地情况,别为了赶进度一排机器同时插满。第一批建议少量上电,观察电源启动声音、风扇自检、网口灯、控制板指示灯。风扇刚启动时有轻微高转速正常,但持续异响、擦碰声、尖锐啸叫都不能忽略。
接下来才是带载。带载时间不要太短,至少跑到温度稳定后再判断。很多机器前 10 分钟很好看,半小时后风扇转速上来,温度曲线才会分出差别。验收时重点看几个数:实际算力是否贴近标称,功耗是否离谱,单板算力是否均衡,芯片温度是否有异常高点,风扇转速是否忽上忽下,矿池端拒绝率是否偏高。
我通常不只看机器后台,也看矿池端数据。机器本地显示正常,不代表提交质量正常。网络抖动、固件异常、频率策略不稳,都可能让本地算力和有效算力出现差距。验收报告里只写“后台显示正常”,后面很难说清楚。
上架:把位置、线缆和风道一起验
通过初验的机器,上架时还有一轮硬件验收。很多矿场把上架当搬运,实际上上架是最容易制造新故障的环节。
机架位置要记录到台。哪台机器在哪一排、哪一层、哪个 PDU 口、哪个交换机端口,要能查到。后面巡检发现某个区域温度高、某个 PDU 电流偏大、某个交换机端口丢包,才能顺着位置追。
电源线不要只看插上没插上,要看插得稳不稳、线有没有被风道吸住、有没有压在机身热区。矿机长期高功耗运行,接触不良比很多人想象中更危险。插头发热、线皮变硬、端子变色,往往不是突然发生,而是从上架那天就埋下了。
风道更要当成硬件的一部分验收。同一型号矿机,放在不同层、不同通道,温度可能差很多。上架后要记录进风和出风温差,观察相邻机器是否互相吃热风。特别是靠墙、靠门、靠转角的位置,不要只按机架空位塞机器。短时间为了把货上完,后面可能用更高风扇转速、更高故障率来还债。
还有一个细节:不要把问题机放在最难够到的位置。有些机器初验“勉强过”,比如风扇声音偏大、单板温度略高、功耗略超,这类机器如果暂时接收,应该放在容易观察、容易更换的位置,而不是塞到高层或角落。硬件验收要给后续维修留路。
巡检:别只追掉线,先看异常变慢的机器
机器上架后,验收还没结束。真正能说明硬件状态的是连续运行数据。
第一天巡检看启动稳定性。有没有频繁重启,有没有单板丢失,有没有风扇转速跳变,有没有某几台机器温度明显高于同排。刚上架的机器,如果一天内多次自恢复,不要轻易放过。自恢复不是没问题,它只是暂时没停机。
第三天左右看趋势。算力是否慢慢下滑,功耗是否慢慢升高,拒绝率是否比同批机器高,风扇转速是否比旁边同温度机器更高。硬件验收工程师最该盯的不是“红灯”,而是那些还没红、但已经偏离同批平均值的机器。
巡检时要带工具,不要只带手机。测温枪看插头、PDU、出风口;备用网线排除网络问题;备用风扇和电源用于快速替换;标签纸用于标记待观察机器。很多现场工单之所以拖,是因为第一次巡检只截了图,第二次才带工具,第三次才换件,机器已经多损失了一两天。
备件也要跟着巡检校准。比如这一批机器风扇故障偏多,就要检查库存风扇型号、接口、转速范围是否匹配;如果电源啸叫或掉电偏多,就要核对备用电源功率和保修来源;如果控制板异常集中,要提前准备刷机工具和已验证固件。备件清单不是月末盘点才看的东西,它应该跟现场故障一起变化。
回滚:问题批次不要硬推全场
验收中发现问题,最忌讳一句话:“先上,后面再说。”这句话在产能紧张时很诱人,但硬件问题一旦扩散到全场,排查成本会翻倍。
如果是单台外观损伤、风扇异响、电源异常,处理很简单:隔离、拍照、记录、通知供应商,必要时换备件复测。复测通过也要贴上标记,后续重点观察。
如果是同批多台出现相同问题,就不能按单台故障处理。比如同一批机器普遍功耗偏高、同一批电源温度偏高、同一批风扇转速异常、同一固件版本拒绝率偏高,这时候要暂停上架,把已上架机器按批次拉出清单,抽样扩大测试。不要等全场都跑起来再确认“可能是批次问题”。
回滚不一定是全部下架。可以先降频运行、调整风道、替换电源、回退固件、减少同一 PDU 下的密度,但每一步都要记录改动前后的数据。没有数据的回滚,下一次还会踩同一个坑。
供应商沟通也要靠证据。只说“这批机器不稳”,对方很容易推给环境、电压、网络。验收记录里有 SN、照片、温度、功耗、运行时长、报错截图、替换备件后的结果,沟通效率会高很多。硬件验收不是为了找麻烦,而是为了把责任边界说清楚。
复盘:把今天的故障变成下次的验收项
一批矿机验收结束后,别急着把资料丢进文件夹。复盘要趁现场人员还记得细节时做。
哪些故障在开箱就能发现?哪些要带载才暴露?哪些是上架造成的?哪些是备件不足拖慢的?这些问题都要写回下一批验收流程。比如这次发现某型号电源插头发热,下次到货就把插头温度加入固定检查;这次发现某批风扇轴承噪音偏大,下次带载时就增加声音和转速波动记录;这次发现高层机架温度偏高,下次上架就先限制该位置密度。
备件比例也要复盘。不是所有备件都按固定百分比备就合理。风扇是高频消耗件,电源是停机影响大的关键件,控制板数量少但定位麻烦,线缆便宜却经常耽误事。备件要按故障频率、替换难度、采购周期来定,而不是按采购员一句“够用”来定。
对矿场来说,矿机硬件验收的目标不是把每台机器挑到完美,而是把风险尽量提前看见。到货时多花半天做带载,上架时多记一个位置,巡检时多测一次插头温度,备件柜里多放一套确认能用的电源,后面可能少一次夜里停机。
今天如果有新机器到场,建议现场马上做三件具体动作:把验收区电压和进风温度记下来;随机抽一批机器跑满温度稳定后的带载测试;把通过初验的机器 SN、机架位置、PDU 口和备件替换记录绑定到同一张工单里。矿机能不能长期稳定跑,很多时候就差在到货第一天有没有认真验。
