矿机到货先别急着上架通电

文章目录

矿机到货先别急着上架通电

到货数量、箱体破损、序列号、铭牌功率、风扇叶片、算力板外观、电源接口、线缆规格、机房进风温度、PDU 余量、空开容量、接地状态、备件箱库存,这些变量只要有一项没核清,矿机上架以后就容易把小问题拖成大停机。作为硬件验收工程师,我最怕的不是机器开不了机,而是机器“看起来能跑”,实际带着隐患进了机架:某一排电源线温升异常,某几台风扇轴承已经有杂音,某批机器序列号和采购单对不上,等到高负载跑满两天才开始掉板、降频、重启,排查成本会翻好几倍。

矿场里很多损失都不是发生在故障那一刻,而是发生在验收松手的那一天。今天这篇就按硬件验收的真实顺序说:到货前怎么准备,到货后怎么执行,上架后怎么检查,出问题怎么回滚和复盘。重点不谈参数宣传,只谈散热、供电、维修、备件和验收动作。

准备:验收前要把“能不能接收”说清楚

矿机还没进门,验收工作其实已经开始了。

第一件事是把采购单、物流单、设备清单、质保条款放在一起核。不要只看总台数,要看型号、批次、算力规格、电源版本、固件版本要求、保修起算时间。尤其是二手机、翻新机、混批机器,更要提前要求供应方提供序列号清单和出厂测试记录。没有序列号清单,到货后只能一台台补录,既慢,也容易漏。

第二件事是确认机房承载。很多现场出问题,不是矿机坏,而是机房准备得太粗。比如一批高功率矿机计划上 100 台,但 PDU、空开、线缆、变压器余量只按理论功率算,没有把启动电流、环境高温、线损、后续扩容算进去。验收工程师要提前拿到每台矿机额定功率、推荐电压、电源插头规格,再和电工一起核一遍供电路径:配电柜到母线,母线到 PDU,PDU 到电源线,电源线到矿机接口,每一段都不能只凭“以前也这么接”。

第三件事是准备现场工具。红外测温仪、钳形表、网线测试仪、万用表、绝缘手套、防静电手环、备用风扇、备用电源、常用螺丝、扎带、标签纸、扫码枪或手机录入工具,都应该在机器拆箱前就放好。验收不是靠眼睛扫一遍,很多问题必须靠工具确认。比如电源线压接是否发热,PDU 某一路是否负载偏高,风扇转速是否异常,靠耳朵和手摸都不够可靠。

第四件事是划定暂存区、待检区、合格区、隔离区。矿机到货后最忌讳堆在一起,拆了箱就往机架搬。包装破损的、序列号不符的、外观有磕碰的、通电异常的,都要有单独位置放,贴上标签,拍照留存。现场一旦混堆,后面找责任、找批次、找故障规律都会变得很麻烦。

执行:拆箱不是开盲盒,而是做证据

到货验收第一步,不是拆箱,而是拍照。车厢状态、托盘外观、外箱破损、封条状态、受潮痕迹,都要先留图。很多运输损伤,供应方和物流方会互相推,现场如果没有第一时间记录,后面很难说清。

拆箱后先看外观。矿机外壳是否变形,进出风口是否压弯,风扇网罩是否松动,风扇叶片有没有断裂和刮擦,电源外壳有没有凹陷,接口有没有烧蚀痕迹,算力板固定螺丝有没有缺失。不要觉得外观小伤无所谓。进风口轻微变形会影响风道,风扇叶片缺口会带来震动,电源接口一点点发黑可能就是之前高温接触不良留下的痕迹。

再核序列号。每台矿机机身码、电源码、包装码、清单码最好都录进去。对于批量设备,建议按机架位置预分配编号,比如 A 区 03 排 05 位,这样后面一台机器从到货、上架、运行、维修到退换,都能串起来。很多矿场后期维修混乱,就是因为只有“那台掉算力的机器”,没有准确身份。

随后检查电源和线缆。铭牌电压范围、功率标称、接口规格要和现场供电一致。电源线不要混用来路不明的旧线,尤其是高功率设备,线径、插头、认证标识都要看。验收时我会随机抽几根线做弯折和插拔检查,插头松、铜片发黑、护套开裂的直接淘汰。别省这点线材钱,高温、虚接、拉弧,最后烧掉的可能是一整排设备。

通电前,还要看散热环境。进风侧不能堆纸箱,热风不能回灌,机架之间通道要留够,风向要统一。新设备上架时常见一个错误:为了整齐,把机器塞得太满,线缆又挡在出风口后面。开机前看着没问题,跑一小时后热风积在后排,温度一上去,风扇狂转、功耗上扬、算力开始抖。

上架:第一次通电要慢,不要一排一起冲

矿机上架时,我更倾向于分批通电。先上一小组,确认电压、电流、风扇、网络、算力都稳定,再扩到一排,最后再整区上线。一次性全开看起来省时间,但一旦出现供电压降、PDU 过载、网络冲突、热风回流,就会同时冒出一堆告警,反而不知道先查哪一个。

第一轮通电要盯几个细节。

风扇启动声音是否顺,是否有明显刮擦、尖叫、间歇性停转。矿机风扇不是小配件,它直接决定芯片能不能在合理温度里跑。新机风扇如果启动就有异响,不要想着先跑几天看看,应该直接登记隔离。风扇问题拖到高温天,可能带出算力板温度异常。

电源温升要测。通电 15 分钟、30 分钟、60 分钟分别抽测电源外壳、插头、PDU 接口、空开附近温度。某一路明显高于同排平均值,就要停下来查线缆、插座和负载分配。电源故障往往不是突然炸出来的,而是从接触不良、局部发热、风扇积灰开始,一点点累积。

网络要核 IP 和矿池连接。硬件验收不等于只看铁壳子,矿机无法稳定连矿池,也会被误判成硬件问题。IP 冲突、网线水晶头压接不良、交换机端口异常,都会造成掉线和算力波动。新上架时最好把设备位置、IP、MAC、矿池账号一起记录,后面排查会快很多。

算力稳定性不能只看开机那 5 分钟。至少要跑一个短周期压力观察,看算力曲线、芯片温度、风扇转速、电源状态有没有异常跳动。新到设备如果频繁重启、掉板、少芯片、温度传感器异常,要立刻标记,不要混入正常设备队列。

检查:巡检要看趋势,不只看红色告警

矿机上架后的第一天,是验收工程师最该勤快的时候。因为运输松动、安装问题、供电分配不均、风道缺陷,通常会在前几个小时暴露出来。

巡检不要只盯后台红色告警。后台没报警,不代表现场没风险。比如某台机器风扇转速长期比同型号高很多,可能说明它吸到的是热风;某一排电源线温度整体偏高,可能是 PDU 分配不合理;某几台机器算力轻微波动,可能是同一路电压不稳;某台外壳震动明显,可能是风扇或固定件有问题。

我通常会按“声音、风、温度、线、电流、面板数据”的顺序走一遍。先听有没有异响,再用手背远距离感受风向,不直接触碰高温部件;然后用红外测温仪抽查进风口、出风口、电源、接头;再看线缆有没有被压、被拉、贴近热源;最后对照后台数据。现场看到的和后台显示的要能互相解释,如果解释不上,就要继续查。

备件也要在巡检时同步管理。备用风扇、备用电源、控制板、网线、电源线、螺丝、接口转接件,不能只写在仓库账上,要确认放在哪里、谁能领、坏件怎么回收、换件后怎么登记。最糟糕的情况是夜班发现风扇坏了,系统里显示有备件,但钥匙在白班主管手里,或者备件型号不匹配,只能让机器停一夜。

维修记录要细到可复查。不要只写“已处理”“已更换”。应该写清设备编号、位置、故障时间、现象、温度、电流、后台报错、处理动作、更换部件编号、处理后观察结果。硬件故障有批次特征,如果记录太粗,三周后同一批电源连续出问题,也没人能第一时间看出来。

回滚:不确定就下架隔离,别让问题机混跑

验收现场一定要有回滚规则。所谓回滚,不是软件里点一下恢复,而是硬件现场把风险控制住:停机、断电、下架、隔离、换件、退换或降载运行。

哪些情况必须停?电源接口有烧蚀痕迹,插头或线缆异常发热,风扇停转或转速乱跳,算力板反复掉板,机器有焦味,外壳变形影响风道,后台温度异常但风扇无法拉升,这些都不应该继续跑。矿场里最危险的想法是“先顶一下收益”。硬件问题越顶越贵,轻则损坏电源和算力板,重则带来供电安全风险。

对可维修问题,要区分现场处理和返修处理。风扇、线缆、部分电源问题,如果有合格备件和操作规范,可以现场换;涉及算力板深度维修、明显进水、严重摔损、疑似批量质量问题,就不要在机房里硬修。验收工程师要把边界划清楚:能换的换,不能换的隔离,责任未确认前不要拆得面目全非。

降载也是一种回滚。有些机房在高温、供电余量不足或临时扩容时,不能硬让全部设备满功率跑。可以先降低频率或分批运行,把问题压到可观察范围内。硬件验收不是为了证明机器“能开”,而是为了确认它能在当前场地安全、稳定、可维护地跑。

复盘:把一次到货变成下一次少出错的依据

一批矿机验收结束,不等于工作结束。复盘至少要留下三类东西。

第一类是设备档案。每台矿机的序列号、位置、上架时间、电源版本、初始算力、初始温度、维修记录、换件记录,都要能查到。后面无论算收益、追质保、查批次故障,都靠这份档案。

第二类是现场问题清单。比如某型号风扇运输后异响比例高,某批电源接口插拔偏紧,某一排 PDU 温升偏高,某个机架热风回流明显。这些问题不要只在微信群里说一遍,要写成可以执行的整改项,明确谁负责、什么时候改、改完怎么验。

第三类是备件消耗和补货建议。验收第一周用了多少风扇、多少电源线、多少网线,哪些型号消耗快,哪些备件账面有但实际不适配,都要补齐。矿机真正停机时,最值钱的不是仓库里堆了多少东西,而是有没有正好能用的那一个备件。

今天如果你负责一批矿机到货,建议马上做一个动作:先暂停整排上架,把未拆箱设备、已上架设备、异常设备分开编号;抽查 10% 的电源线和 PDU 温度;把风扇异响、接口发热、序列号不符的机器单独贴标;再把备用风扇、备用电源和线缆型号核一遍。矿机硬件验收不需要花哨话术,现场少漏一台问题机,后面就少一次深夜抢修。

矿机到货先别急着上架通电

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信扫一扫,分享到朋友圈

矿机到货先别急着上架通电
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close