矿机到货先核对风道和电源接口再上架

文章目录

矿机到货先核对风道和电源接口再上架

到货验收时,我最先看的不是后台算力,也不是外箱上写的型号,而是一组容易被忽略的变量:外箱是否受潮,防震泡棉有没有塌陷,机身序列号和采购单能不能对上,风扇叶片有没有擦痕,电源插头有没有发黑,控制板网口是否松动,进风侧滤网是否带灰,散热片缝隙里有没有金属屑,螺丝封签是否被动过,随箱电源线规格是否匹配机房 PDU。只要其中一个变量不对,这台机器就不该直接上架跑满功率。

矿机硬件验收最怕“差不多”。包装看起来没破,机器能点亮,面板也能识别,于是就进机架、接电、开跑。结果三天后掉板,一周后风扇异响,半个月后电源保护,维修人员再回头查,已经说不清是运输损伤、上架挤压、供电不稳,还是原厂品控问题。对矿场来说,验收不是走流程,而是在故障发生前,把责任边界、备件需求和停机风险先压下来。

准备:收货区要比机架区更严格

很多矿场把收货区当临时堆货点,这是第一个坑。矿机到场后,如果直接堆在通道里等上架,外箱状态、批次差异和配件缺失很快就会混在一起。我的做法是,收货区单独划线,未验收、待复测、可上架、待退换四类机器分开放,任何人不能把未验收机器推到机架旁边“先占位置”。

准备阶段要先把资料拿齐。采购单、物流单、厂家出厂清单、质保条款、机型功耗参数、电源规格、风扇型号、控制板版本,这些东西不能等机器出问题后再找。尤其是同一批货里混了不同生产日期、不同电源批次时,后面巡检会很麻烦。验收记录里必须写清楚每台机器的序列号、箱号、到货时间、外观状态和对应机位,不能只写“本批 100 台正常”。

工具也要提前备好。测温枪、功率计、万用表、网线测试仪、扭力螺丝刀、防静电手套、备用风扇、备用电源、备用控制板、扎带和标签纸,都应该在收货前到位。不要等发现风扇不转,才去仓库翻旧件;也不要等 PDU 插口发热,才想起测插头接触是否可靠。

还有一个细节:验收前要确认机房环境。冷通道温度、热通道回风、湿度、尘土、PDU 负载余量、空开容量,都要先有数。如果机房本身风量不足,验收时机器跑不稳,不能简单认定是矿机硬件问题;反过来,如果环境正常而单台异常,就更容易把问题定位到设备本身。

执行:开箱、通电、上架不能一口气做完

开箱时不要急着撕完所有包装。外箱四角、底部压痕、胶带二次封箱痕迹,都要拍照留底。矿机从箱内取出后,先看机壳是否变形,风扇罩是否偏斜,散热片是否有明显歪倒。运输震动后,最容易出问题的是风扇、散热片、插接件和电源接口,外观不查,通电后再烧,就很难追责。

第一次通电建议在验收工位完成,不建议直接上架跑。接入独立 PDU,单台启动,观察风扇自检声音是否均匀,电源启动有没有尖叫或反复保护,控制板能否稳定获取 IP。这里不要求马上追求满算力,而是先确认机器能正常启动、能联网、能识别算力板、能读取温度。

进入测试后,功率和温度要一起看。只看算力没有意义,因为有些机器短时间能冲上去,但某一块算力板温度上升很快,或者风扇转速拉满后仍压不住热。验收记录里至少要写下启动功率、稳定功率、进风温度、出风温度、各板温度差、风扇转速和错误码。温差过大的机器不要放过,有时不是芯片问题,而是散热片压合、导热材料或风道被异物影响。

上架时要按风道安排,不要只按空位塞机器。进风侧不能被线缆挡住,出风侧不能正对另一排进风口,机身和机架之间要留出检修空间。电源线不要拉得太紧,也不要在热风区打结。PDU 插头插入后要确认到底,跑一段时间后再摸插头和线缆温升,发现某个插口明显烫手,宁可停机换位,也不要等它烧黑。

检查:巡检不只看红灯,还要看异常的前兆

矿机上架后的前 24 小时,是验收工程师最该盯紧的时间。很多硬件问题不是开机就坏,而是在热胀冷缩、负载变化和风扇长时间高转速后才露出来。第一天巡检不能只看管理面板有没有离线,还要现场听声音、看线缆、摸电源外壳温度、查热通道是否有局部热浪。

我比较在意几类前兆。第一是风扇声音变尖,说明轴承、叶片或风道阻力可能有问题;第二是同型号机器里某台功耗偏高,但算力没有更高,可能是电源效率或算力板状态异常;第三是某一块板温度总比其他板高,可能是散热片接触、灰尘或芯片状态问题;第四是电源偶发保护后又恢复,这类机器不能留在满负载区继续赌。

巡检记录要能追到机位。只写“3 号通道有异常”不够,必须精确到机架、层位、机器序列号、电源口、网口。后面维修换件时,这些记录能直接减少排查时间。尤其是批量机器到货后,如果同一批电源、同一批风扇连续出现异常,要及时把问题从“单机维修”提升为“批次风险”,避免一台一台被动处理。

备件也要跟着巡检动态调整。不是所有矿场都要囤一大堆零件,但常用件必须有比例。风扇、电源、控制板、网线、电源线、PDU 插头、螺丝和标签纸,这些看似小件,缺一个都可能让机器多停半天。备件入库同样要验收,旧件和新件分区,拆机件要标注来源、故障现象和是否复测通过,不能把不确定的旧件又装回生产机器。

维修:能换件不代表问题已经解决

维修现场最容易犯的错,是看到机器恢复算力就结束工单。比如风扇报警,换了风扇后面板正常,但如果不查风道阻塞、进风温度和线缆遮挡,过几天还会报警。电源保护也是一样,换电源前要先测 PDU 负载、电压波动、插头接触和机器实际功率,否则新电源可能继续保护。

拆机维修要保留顺序。先断电,再放电等待,再拆线,再拆板,不要为了赶时间热插拔。拆下来的风扇、电源、控制板要贴标签,写明机器序列号和故障时间。送修件如果没有故障描述,供应商只能做简单通电测试,很多间歇性问题根本测不出来,最后又回到矿场继续制造停机。

维修后必须做复测。复测不只是开机,而是至少跑过一段稳定负载,观察温度、功率、风扇转速和错误日志。复测通过后再回到原机位或备用机位,并在工单里写明换了什么、为什么换、旧件去了哪里、是否影响质保。硬件管理做细之后,后面采购也会更准:哪些型号风扇容易坏,哪些批次电源保护多,哪些机位热压大,都能看出来。

回滚与复盘:该下架时不要舍不得那点算力

验收工程师要有一个明确原则:硬件状态不确定的机器,不上满负载;连续异常的机器,不留生产位;同批次重复故障,不继续盲目上架。很多损失不是来自一台坏机器,而是坏机器拖着电源、PDU、同架风道一起出问题。

回滚动作要提前写好。哪些错误码必须降频观察,哪些温度必须停机,哪些电源异常必须下架,哪些风扇问题可以现场换件,哪些机器要直接退换,都要有标准。没有标准时,夜班人员只能凭经验判断,经验不同,处理结果就不同。

复盘不要等事故后才做。每批矿机完成七天稳定运行后,就应该统计一次:到货破损率、开箱异常率、上架后 24 小时故障率、风扇更换数量、电源保护次数、退换货数量、平均维修时长、备件消耗量。下一批采购、机房改造和备件预算,都应该参考这些数据,而不是只看报价单上的单 T 成本。

今天如果有新矿机到场,建议先做一个很具体的动作:把收货区的未验收机器全部贴上状态标签,再抽查每台的风道、电源接口和序列号,未完成记录前不要上架。矿机硬件真正省钱的地方,不在开机那一刻多跑了多少算力,而在到货、上架、巡检和备件这几步少埋了多少故障。

矿机到货先核对风道和电源接口再上架

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信扫一扫,分享到朋友圈

矿机到货先核对风道和电源接口再上架
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close