文章目录
矿机到货后先别急着上架:散热、供电、维修和备件验收要一次查清
矿机硬件这件事,很多矿工容易在下单时算得很细,到了收货和上架反而变得粗糙。型号、算力、功耗、单 T 成本都反复比较,机器一到场,就急着通电、改矿池、跑起来看面板。结果真正出问题的地方,往往不是参数表上写得最显眼的芯片,而是风道有堵点、电源接头发热、控制板接口松动、风扇轴承异响,或者售后备件根本没有按批次准备好。
尤其现在行情波动大,外部市场也不安稳。美股芯片股大跌、半导体指数剧烈回撤,虽然不等于矿机马上缺货,但会让硬件供应链、维修件价格和交付节奏更容易出现变化。对矿场来说,今天买机器不能只看“能不能开机”,更要看“能不能稳定跑、坏了能不能快修、扩容时能不能少踩坑”。
矿机硬件验收,应该从收货那一刻就开始,而不是等故障发生以后再回头查。
到货第一关:外观不是走流程,是排除运输暗伤
矿机从厂家、代理或者二级市场到矿场,中间经历搬运、堆叠、长途运输,最容易留下的不是一眼能看见的大损坏,而是轻微变形、接口松动和风道异物。这类问题如果没有在上架前发现,通电后就可能变成高温、掉板、重启,甚至电源保护。
验收时先看包装箱。外箱有没有明显挤压、水渍、重新封箱痕迹;泡棉是否完整;机器外壳有没有变形;进风口和出风口有没有积灰、碎屑、胶带残留。二手机尤其要注意螺丝是否缺失、外壳是否有明显拆修痕迹、风扇护网有没有压弯。
再看标签和序列号。机器铭牌、控制板标签、电源标签要和采购清单对应起来。不要只按数量点货,最好按批次记录型号、序列号、到货时间、卖方、质保口径。后面如果出现同一批机器风扇异常、电源高温或者算力板集中故障,这些记录就是追责和判断批次问题的依据。
有条件的矿场,建议做一个简单的“上架前拍照留档”:外箱、铭牌、接口、风扇、电源口各拍一张。不是为了形式,而是为了避免后面出现运输损坏、售后扯皮时没有证据。
散热验收:别只看温度数值,要看风路是否顺
矿机散热不是单纯看风扇转得快不快。真正影响稳定性的,是冷风能不能顺利进来、热风能不能及时排出去,以及同一排机器之间有没有互相“吃热风”。
新机上架前,先单台短测。通电后听风扇声音是否均匀,有没有尖锐啸叫、摩擦声、忽快忽慢。风扇启动异常的机器不要硬跑,因为早期风扇问题很容易拖出芯片高温和算力板保护。
再看进出风温差。正常情况下,出风热是合理的,但如果某台机器出风明显异常烫、面板显示温度快速拉高,或者同一批机器中某几台温度持续偏高,就要检查风道是否被线缆挡住、风扇方向是否装反、散热片是否有松动迹象。
矿场上架时还要注意机位。很多小矿场为了多塞几台机器,把机器贴得过近,电源线和网线横在进风口前面,短时间看不出问题,跑一周以后就开始掉算力。机器之间应留出基本通风空间,热风出口不要直接对着另一排进风口。热通道如果没有隔离,风扇转速会被迫拉高,噪音变大,功耗上升,风扇寿命也会更短。
水冷或浸没式设备还要额外看接头、管路、泵和液体状态。水冷机器不能只看开机成功,要检查接头是否渗液、泵声音是否异常、循环是否稳定。浸没式设备要关注介质清洁度、密封件状态和换热效率,不要把“泡进去能跑”当作验收完成。
供电检查:很多硬件故障其实从电开始
矿机是高功率设备,供电出问题,表现出来可能是掉线、重启、掉板、算力波动、电源烧毁,甚至线缆发热。很多人一开始以为是机器质量不好,最后查下来是线径不够、插头虚接、PDU 过载或者三相不平衡。
新机器上架前,先确认电源规格和现场电压匹配。不要混用不清楚来源的电源,不要用老化插排临时顶上。电源线、接头、PDU、空开都要按实际负载核算余量。矿机不是普通电脑,接头发热不是小事,长期发热会让塑料件变形、接触电阻变大,最后故障越来越频繁。
开机后,建议在运行一段时间后摸排接头温度,当然要注意安全,不能徒手乱碰裸露导体。更稳妥的做法是使用红外测温设备检查插头、PDU、空开和电源输入端是否有异常热点。同一排机器中,如果某一路线缆温度明显高于其他线路,要立刻停下来查原因,而不是继续让它“先跑着”。
供电验收还要看负载分配。三相电不平衡会让部分线路压力过大,也会引起不稳定。新增机器时,不要只看总容量够不够,还要看每一路实际承载。矿场扩容最容易犯的错,就是一开始供电设计够用,后面零散加机器,最后局部线路被压满。
维修准备:不要等停机以后才找工具和人
矿机硬件维修分两层:现场快速恢复和深度维修。现场要解决的是尽快判断问题、替换易损件、让机器恢复运行;深度维修才是算力板、电源、控制板的检测和修复。两者不能混在一起。
现场至少要能判断几类常见问题:风扇不转或转速异常、电源无输出、控制板无法启动、算力板掉板、网口异常、温度保护。矿场人员不一定要会修芯片,但要会分辨故障大概在哪一层。否则每次出问题都只会重启,重启无效就整机下架,停机成本会很高。
维修流程要简单明确。比如一台机器掉算力,先看后台日志和温度,再看风扇和网络,然后换已知正常电源或控制板交叉测试,最后再判断是否算力板问题。不要一上来就拆散热片,也不要在没有防静电和记录的情况下随意换板。很多二次故障不是原厂问题,而是现场拆装粗暴造成的。
还要提醒一点:维修记录必须写。哪台机器换过风扇,哪块板返修过,哪台电源出现过保护,记录下来后,后面做批次判断才有依据。没有维修记录的矿场,最后会变成“感觉这批机器不太行”,但拿不出具体证据。
备件不是越多越好,关键是按故障概率备
备件准备经常被忽视。机器刚到时大家都觉得新机器不会坏,等风扇、电源、控制板开始出问题,才发现备件要等物流,机器只能停着。挖矿行业里,停机一天不是抽象损失,是实打实少产币。
常见备件优先级可以按易损程度和恢复速度来排。风扇、电源线、网线、控制板、电源模块、常用螺丝、接口转接件、温度探头这类,应当先准备。算力板成本高,不一定大量备,但至少要有返修渠道和周转方案。
风扇是高频消耗件,尤其在高温、高灰尘环境中,轴承寿命会明显缩短。电源也要留一定备用量,因为电源故障会直接导致整机停机,而且交叉测试时也需要备用电源。控制板虽然故障率不一定最高,但一旦坏了,现场替换能迅速判断问题,不必整机送修。
备件还要注意型号兼容。同品牌不同代机器,风扇规格、电源接口、控制板版本可能不同。不要以为“看起来差不多”就能通用。备件入库时要贴清型号,最好按机器批次分开存放。否则真正抢修时,找备件本身就会浪费时间。
试运行验收:至少跑过一个完整温度周期
矿机验收不能只看开机十分钟的算力。刚开机时,环境温度、机身温度、电源温度都还没完全上来,很多问题不会立刻暴露。比较稳妥的做法,是让新到机器至少跑过一个完整温度周期,比如从白天到夜间,或者从低负载环境到高温时段。
试运行时要观察几个指标:算力是否稳定,是否频繁掉板,温度是否持续爬升,风扇转速是否异常拉满,功耗是否明显偏离同型号平均水平,后台是否出现重复报错。单台异常不一定代表整批有问题,但同一批机器出现相同症状,就要及时暂停批量上架。
如果是二手机,试运行更重要。二手机可能短测正常,但长时间高负载后暴露焊点、散热片、电源老化等问题。购买二手机时,最好把验收条款写清楚:测试时长、异常处理、退换标准、质保范围。口头承诺在硬件纠纷里最不可靠。
一个小矿场的教训:省下验收时间,后来用停机补回去
有个小矿场之前扩容一批机器,收货当天晚上就全部上架。因为行情不错,负责人想早点跑起来,外观只粗略看了一遍,供电也只是确认空开没跳。前三天面板算力还可以,第四天开始有几台机器频繁重启,后来陆续出现风扇异响和电源接头发热。
最后排查发现,问题并不复杂:部分机器运输中风扇护网变形,影响进风;几条电源线规格偏弱,接头长期高温;还有两台二手机的散热片固定不牢。真正麻烦的是,当时没有拍照留档,也没有逐台记录序列号和测试结果,找卖方沟通时很难说明哪些是到货问题、哪些是上架后问题。
这批机器最终修好了,但中间停机、换线、补风扇、返修,耗掉的时间和收益,远超过当初“省下来”的半天验收时间。矿机硬件管理就是这样,前面少做一步,后面往往要用更多成本补回来。
给今天准备上架矿机的具体建议
第一,新机和二手机都要做逐台验收,不要只按箱数点货。外观、铭牌、风扇、电源口、控制板接口都要看,并拍照留档。
第二,散热验收要结合现场风路,不要只盯后台温度。进风口不要被线缆挡住,热风不要回流,异常高温机器先停下来查。
第三,供电必须留余量。电源线、PDU、空开、三相负载都要核算,运行后用测温方式检查接头和线路热点。
第四,备件按故障概率准备。风扇、电源线、控制板、电源模块、网线和常用工具要先到位,不要等机器停了再采购。
第五,试运行至少覆盖一个温度周期。短时间开机正常不代表验收完成,稳定跑过高温时段,才更接近真实运行状态。
矿机硬件的价值,不只在买来那一刻的参数,也在后面每一天能不能少停机、少返修、少扯皮。今天要上架的机器,先把散热、供电、维修、备件和验收做扎实,比多抢几个小时开机更重要。
