文章目录
到货矿机先做带载验收再谈上架
进仓第一眼,我不会先问这批机器标称多少 T,也不会急着让人拆箱上架。我要看的变量很具体:外箱有没有二次封胶,序列号和采购单能不能对上,电源接口有没有发黑,风扇叶片有没有磕边,控制板指示灯是否正常,三块算力板温差是不是离谱,进风口温度、出风口温度、风扇转速、电源输入电压、整机功耗、矿池拒绝率,至少要在同一张验收记录里出现。少一个变量,后面出了问题就只能靠猜。
我做矿机硬件验收这些年,最怕的不是机器坏,而是机器“看起来没坏”。空载能亮、短时间能跑、后台有算力,并不代表它能在矿场环境里连续扛住。尤其现在很多机器经过长途运输、转仓、返修、二次销售,到货状态差异很大。硬件验收工程师的价值,就是在机器正式吃电之前,把会引发停机、烧线、反复掉板的隐患提前拦下来。
准备:机器没拆完,验收条件先搭好
验收不是把矿机摆一排通电这么简单。到货前一天,我通常会先把测试位清出来,确认电缆规格、PDU 余量、空开容量、网线端口、测试矿池账号、温湿度计、热成像仪、钳形表、备用风扇和电源都在现场。测试位不要选在风道最好的位置,否则测出来的状态会过于好看,上架后反而暴露问题。
电这件事要先算清楚。比如一台机器标称功耗 3300W,验收时不能只看它能不能启动,还要看测试回路能不能承受多台同时拉载。接线时要确认插头规格、线径、PDU 端口温度,不要让临时测试线变成风险源。有些故障不是机器带来的,是验收现场太随意带来的。
网络也要提前处理。新机器批量接入时,IP 冲突、DHCP 分配异常、矿池地址填错,都会让人误判为控制板问题。我的习惯是给测试区单独留一个网段,批次、箱号、SN、IP、机位临时编号一一对应。后续如果某台掉线,能马上定位到物理机器,而不是在机架上靠声音找半天。
备件同样要提前到位。验收现场至少要准备同型号风扇、常用电源、控制板连接线、数据排线、螺丝、扎带、网线和清洁工具。没有备件的验收,很容易变成“发现问题但无法确认问题”。风扇异常到底是风扇坏,还是控制板供电异常?电源报警到底是电源本体,还是输入波动?没有替换件,就只能把机器先搁置,批量上架节奏会被拖乱。
执行:通电不是结束,带载才算开始
拆箱时我会先拍照,尤其是外箱、泡棉、机身铭牌、电源接口和风扇位置。别嫌麻烦,后面涉及物流磕碰、供应商返修、质保争议,这些照片比口头描述有用得多。外观检查重点看三处:风扇框有没有裂,散热片有没有变形,电源插口有没有烧蚀或松动。散热片轻微歪斜不一定立刻停机,但如果已经影响风道,就不能直接进架。
第一次通电不建议直接满批次一起开。先抽几台做基准测试,确认固件版本、后台识别的算力板数量、芯片数量、风扇数量都正常,再逐步放量。矿机启动后的前 10 分钟很关键,风扇拉速、芯片升温、电源负载变化都集中在这个阶段。很多运输导致的接触问题,会在热胀冷缩之后出现,而不是开机第一秒出现。
带载测试至少要跑到温度稳定。只看 5 分钟算力没有意义,后台显示一瞬间正常,不代表硬件正常。我更关注三类变化:第一,算力是否从高到低慢慢滑落;第二,算力板之间温差是否持续拉大;第三,风扇转速是否长期顶在高位却压不住温度。如果一台机器在测试区温度不高的情况下风扇已经接近满速,上架到高密度区域后大概率会更难看。
供电检查不能只看后台功耗。后台数值可以参考,但我会用钳形表看输入电流,用手持测温或热成像看插头、PDU 和线缆接点。接头温度异常上升,往往比机器报警更早出现。矿场里有些事故不是芯片烧了,而是接插件长期发热,最后烧黑、打火、连带损坏电源。
检查:把“能跑”拆成可签字的证据
一台矿机能不能通过验收,不能只靠一句“算力正常”。我会把证据拆成几层。
第一层是身份确认。SN、MAC、采购批次、箱号、到货时间、测试人员都要记录。返修机、换板机、混批机最容易在这里出问题。如果 SN 和后台识别、外壳铭牌、供应商清单对不上,先暂停入库,不要想着“反正能跑就行”。
第二层是运行指标。至少记录稳定运行后的平均算力、功耗、进风温度、出风温度、风扇转速、算力板温度、硬件错误率、矿池拒绝率。这里不要只记一个漂亮数值,要看一段时间的均值和波动。机器偶尔冲高没有价值,持续稳定才有价值。
第三层是散热表现。散热不是只看温度高不高,还要看温差合不合理。同批次同位置测试,如果某台进风一样、功耗接近,但出风温度偏高、风扇转速偏高,说明风道、散热片贴合或风扇效率可能有问题。若某一块算力板长期比其他板高出明显一截,要重点检查散热片、硅脂状态、板间风道和传感器读数。
第四层是电源状态。电源风扇异响、启动慢、负载下啸叫、接口发热,都不能忽略。有些电源在低负载看不出问题,满载一段时间才出现电压波动。验收时如果发现某台机器反复重启,不要第一时间刷固件,先换电源交叉验证。硬件验收最忌讳把所有问题都归到软件上。
第五层是维修判断。能现场解决的,比如风扇破损、排线松动、灰尘异物、固定螺丝脱落,可以登记后更换或修复。涉及算力板掉芯片、温度传感器异常、电源接口烧蚀、控制板识别不稳定,就要单独隔离,不能混入待上架区。隔离区要贴清楚故障标签,不要只写“坏机”,要写明“二号板识别丢失”“满载 20 分钟重启”“左侧风扇转速异常”这类可复测信息。
上架巡检:验收通过,也要再看一遍现场变量
测试位通过不代表上架结束。真实机架里的进风温度、线缆弯折、相邻机器排风、PDU 负载,都和测试位不同。机器上架后,我会要求至少做一次上架后复测:机位编号和后台 IP 对上,矿池接收算力正常,风扇方向无误,电源线没有受力,网线没有压在热风区,PDU 端口没有明显发热。
巡检时要特别看边角机位。靠墙、靠门、靠热风回流的位置,最容易把本来合格的机器拖成高温报警。新批次机器刚上架的前 24 小时,要提高巡检频率。不是每台都要拆开看,但异常机位一定要现场确认,不要只在后台点重启。后台只能告诉你结果,现场才能告诉你原因。
备件管理也要跟着上架走。新机器到场后,风扇、电源、控制板、排线至少要按批次留出一定比例。备件不要全部堆在仓库深处,常用件要放在运维能快速拿到的位置,并贴上型号和适配范围。很多停机时间并不是维修本身造成的,而是人在找备件、确认型号、等审批。
回滚与复盘:有问题的机器不要硬塞进产线
验收过程中一旦发现批量性异常,比如同批多台电源接口发热、相同算力板掉板、风扇批次噪音异常,就要立刻停止继续上架。不要为了赶进度把问题摊进整个矿场。正确做法是保留样机、记录故障比例、整理照片和日志,通知采购、供应商和运维负责人一起确认处理方式。
单机异常要有回滚动作:从待上架区退回隔离区,恢复原始配置,贴故障标签,写清楚测试条件和复现方式。已经上架后出现异常的机器,也要记录它原来的机位、PDU 端口、网口、环境温度,避免拆下来之后问题消失,最后查不出原因。
每天验收结束,我会做一个很短的复盘:今天到货多少台,通过多少台,现场修复多少台,隔离多少台,主要故障集中在哪些部件,备件消耗了什么。这个复盘不是给领导看的形式文件,而是给第二天验收和巡检用的。比如今天风扇坏得多,明天就要提前补风扇;今天电源啸叫多,就要增加满载测试时间;今天某个机位温度高,就要调整风道或减少密度。
矿机硬件验收的核心动作很朴素:到货先核身份,通电要带载,散热看温差,供电摸接点,维修要隔离,备件要够拿。今天如果有新批次机器进场,别急着把它们全部推上架。先抽样跑满载,再扩大测试范围,把每台机器的 SN、功耗、温度、风扇和故障记录写下来。能签字的验收,才是真正能减少后面停机的验收。
