到货矿机先做冷态验收再上架

文章目录

到货矿机先做冷态验收再上架

箱号、SN、外箱压痕、封签状态、风扇叶片、算力板插槽、控制板网口、电源铭牌、输入电压档位、线缆端子颜色、散热器缝隙灰尘、机身螺丝缺口、随机配件数量、采购批次、质保日期,这些变量在矿机还没通电之前就要看完。很多矿场的问题不是机器跑起来之后才出现,而是到货那一刻就已经埋下了:运输挤压、潮气、错配电源、混批发货、返修机混入新机、少配风扇、线缆端子松动。验收工程师如果把第一步省掉,后面上架、巡检、维修都会变成补窟窿。

我在现场最怕听到一句话:“先上架跑起来再说。”矿机不是普通办公设备,尤其是大批量到货时,一台机器的问题会被风道、电路和批量配置放大。今天这篇不谈行情,也不谈哪家参数更漂亮,只按验收工程师的工作顺序,把到货、上架、巡检、备件和回滚这条线讲清楚。

准备:机器到场前,验收区要先空出来

矿机还没到,验收工作已经开始。最基本的一件事,是把验收区和生产区分开。到货机器不要直接堆到机架旁边,更不要让叉车把整托货推到热通道里等着上架。验收区要有独立电源、照明、扫码设备、拍照位置、防静电垫和临时周转架。空间不够时,至少也要划出“未验收、待通电、已通过、待处理”几个区域,用胶带和标签分开。

验收前要准备几类工具:万用表、红外测温仪、扭力螺丝刀、网线测试仪、扫码枪、标签纸、扎带、备用风扇、备用电源线、少量已验证的电源模块。不要等发现端子发黑、风扇不转、网口松动时再去库房翻东西。现场一乱,最容易发生两件事:坏机混进好机,好机被重复拆装弄成坏机。

资料也要提前拿到。采购合同里的型号、数量、功耗范围、额定电压、出厂批次、质保条件,要和供应商发货清单对齐。只看总数量不够,最好按 SN 建一份验收记录。很多售后争议最后都卡在“这台到底是不是本批次”“到货时有没有外观损伤”“第一次通电时有没有异常”。验收记录不是为了好看,是为了以后维修、换货、追责能说得清。

还有一个经常被忽略的准备项:上架位置。新到矿机不要哪里有空就塞哪里。相同功耗、相同风量、相同维护周期的机器尽量放在同一排或同一区。这样后面巡检时,温度、算力、风扇转速才有可比性。如果把不同批次、不同风扇规格、不同电源效率的机器混放,异常判断会很痛苦。

执行:不开机先看外观,通电只做短测

开箱时先看外箱。外箱破损不一定代表机器坏,但必须拍照留底。角落压塌、封签二次粘贴、托盘倾斜、箱体受潮,这些都要记录。机器拿出来以后,不要急着插电,先做冷态检查。

冷态检查看几处:机身是否变形,风扇护网有没有歪,风扇叶片有没有裂,电源外壳有没有磕碰,算力板插槽有没有松动,数据排线是否插紧,散热片有没有大面积歪斜,螺丝有没有缺失。尤其是风扇和电源接口,运输过程中受力后表面可能看不明显,但一通电就会出现抖动、异响、打火或者间歇掉电。

电源部分要单独看。电源铭牌和机器型号要匹配,输入电压范围要符合现场供电条件。不要用“以前都这么接”代替确认。电源线的线径、插头规格、PDU 额定电流、空开余量都要算进去。高功耗矿机一旦电源线压降过大,轻则算力波动,重则端子发热变色。验收时看到端子轻微发黄、插头松、接地不可靠,就不要上架,先处理。

短测只做两件事:确认能正常启动,确认没有明显硬件异常。短测时间不宜太长,一般在验收台跑到风扇稳定、控制板识别算力板、后台能看到基础状态即可。这个阶段不追求满算力,也不做激进参数。新机刚到场,环境温度、摆放方向、临时电源条件都不是正式运行条件,用短测结果去判断收益没有意义。

短测时要听声音。验收工程师的耳朵很值钱。正常风扇启动声、轴承摩擦声、叶片刮网声、电源高频啸叫、机身共振,听起来是不一样的。很多风扇问题在后台还没报错时,声音已经露出来了。发现异响,不要用手拍机身,也不要让机器“跑跑看会不会好”,直接停机标记。

上架:风道比摆满更重要,线缆别挡住维修手

通过冷态和短测的机器,才进入上架环节。上架前先确认机架承重、冷热通道方向、PDU 分路负载。矿机摆放不是把空位填满。进风口贴着热风、出风口被线缆挡住、上下层风量差太大,都会让同型号机器跑出完全不同的温度。

上架时我会要求安装人员先把机器方向统一,再接网线和电源线。线缆不要为了“看着整齐”绑得太死。矿场后期一定会换风扇、拔电源、抽机器、查网口,如果扎带把电源线和网线捆成一坨,维修一次就要剪一堆,剪完又容易接错。好的布线不是拍照好看,而是坏了能快速拆、能快速复原。

供电分配要留余量。每条 PDU、每个空开、每组线缆都要按实际功耗计算,不要只按标称低值估。新机到场的第一周,最容易出现批量升温、风扇转速拉高、功耗上浮。供电余量留得太紧,温度一上来,电流也跟着上来,最后可能不是机器先报警,而是电源端子、插座、空开先发热。

网络也要在上架时处理好。矿机 IP、机架位置、SN、矿池账号要绑定。不要只靠后台机器名识别。等某一台掉算力、温度异常、风扇故障时,现场人员要能从系统里直接找到它在哪一排哪一层,而不是拿着手机在机房里听风扇声找机器。

巡检:新机第一周不要只看算力

新到矿机上架后,前三天到一周是重点观察期。这个阶段巡检不能只盯总算力。总算力看起来稳定,不代表硬件没问题。要看单机温度、进出风差、风扇转速、电源输入状态、拒绝率、掉板记录、重启次数。尤其是同一批机器放在同一区域时,横向对比很有用。一台机器温度长期比旁边高 5 到 8 度,就算还没报警,也值得检查。

散热巡检要结合现场空气流动。不要只看后台温度。热通道有没有回风,滤网有没有堵,墙角机器有没有吃热风,机架底部有没有积灰,风扇转速是不是异常偏高,这些都要现场看。红外测温仪可以扫电源外壳、PDU 插口和线缆接头,发现局部温度明显高于周边,就要停下来查原因。

供电巡检看颜色、气味和温度。插头发黄、端子发黑、塑料有焦味、线缆发软发烫,都不是小事。矿场里最危险的故障往往不是后台红色告警,而是电源接点慢慢发热。发现这类问题,不能只换一根线了事,要检查同一分路是否过载、同批插头是否质量不一致、安装时是否插到底。

维修巡检还要看故障分布。如果同一批机器集中出现风扇故障,可能是风扇批次问题;如果同一机架多台掉板,可能是局部温度或供电问题;如果同一 PDU 下机器频繁重启,先查供电,不要急着刷固件。验收工程师要把故障从“单台坏了”往“同批、同排、同分路”去归类,这样才能少走弯路。

备件:别等坏了才发现型号对不上

备件管理是矿机硬件稳定运行的一半。很多矿场停机时间长,不是因为故障难修,而是因为备件没备对。风扇、电源模块、控制板、数据线、网线、电源线、螺丝、端子、PDU 插头,这些看着普通,但一旦缺少,机器就只能躺着等。

备件要按机型和批次建档。不同矿机风扇尺寸、接口、转速规格可能接近但不通用;电源模块外观一样,输出规格可能不同;控制板版本不同,固件也可能不一样。库房里不能只写“风扇一箱”“电源几个”,要写清适配机型、数量、入库日期、来源、是否已测试。

备用件也要验收。新买的风扇要抽测转速和异响,备用电源要带载试一下,线缆要看端子压接质量。坏备件放进库房,比没有备件更糟糕。维修人员拿到备件后换上去,机器还是故障,会浪费更多时间,还会误判主板或算力板问题。

建议把常用备件放在机房附近的周转柜,把贵重备件放在库房。周转柜要有出入记录,谁拿走、用在哪台机器、换下来的旧件是否退回,都要写清。矿场规模一大,备件如果不记录,很快就会出现账上有、现场没有,现场有、没人敢用的情况。

回滚和复盘:异常机器不要混回正常队列

验收和上架过程中,只要出现外观损伤、短测异常、风扇异响、电源发热、掉板、频繁重启,就要进入待处理区。不要把异常机器临时塞回机架“再观察”。一旦混回正常队列,后面查起来很麻烦,也容易影响旁边机器。

回滚动作要简单明确:先断电,贴异常标签,记录 SN 和位置,拍照,写明现象,把机器移到待处理区。能现场更换的,比如风扇、电源线、网线,可以按流程处理;涉及算力板、电源模块、控制板的,要看质保条件和维修能力,不要盲目拆。新机刚到场就大拆,很容易影响售后认定。

复盘不要等整批机器全部上完才做。每天收工前,就要把当天通过数量、异常数量、异常类型、备件消耗、未处理问题整理出来。第二天上架前先看这份记录。如果连续出现同类问题,要暂停批量上架,先和供应商、运维、电工一起确认原因。比起多上几十台机器,避免一批机器带病运行更重要。

对矿场来说,矿机硬件验收不是签收手续,而是未来几个月稳定运行的第一道筛子。今天如果有新机器到场,建议立刻做三件具体动作:给未验收机器单独划区,按 SN 建冷态检查记录,把风扇、电源线和常用电源模块从库房点一遍。机器可以晚几个小时上架,但不要在没看清外观、供电和备件的情况下直接开跑。

到货矿机先做冷态验收再上架

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信扫一扫,分享到朋友圈

到货矿机先做冷态验收再上架
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close