挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能

挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能

挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能

挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能

核心价值:学会看日志,不求人,自己解决 90% 的挖矿问题

适合人群:遇到挖矿问题、想提升排查能力、不想每次都问人的矿工


一、为什么日志分析这么重要?

1.1 真实案例

上周有个朋友找我: "我的 3080 矿机频繁掉卡,每天重启 3-4 次,怎么办?"

我的第一步

"把日志发我看看"

日志显示

[14:32:15] GPU3: Temperature 92°C, throttling
[14:32:18] GPU3: Share rejected, temperature too high
[14:32:20] GPU3: Device lost, restarting...

问题定位:GPU3 温度过高(92°C),触发保护机制

解决方案

  1. 清理 GPU3 风扇灰尘
  2. 调整风扇转速从 70% → 85%
  3. 核心频率降低 50MHz

结果:问题彻底解决,不再掉卡

1.2 日志的价值

不会看日志

问题:掉卡
❌ 错误做法:
- 重启试试
- 问别人怎么办
- 换矿池试试
- 折腾 3 天没解决

会看日志

问题:掉卡
✅ 正确做法:
- 打开日志
- 搜索"error"或"failed"
- 定位具体原因(温度/供电/驱动)
- 针对性解决
- 10 分钟搞定

差距:3 天 vs 10 分钟


二、日志文件在哪里?

2.1 不同系统的日志位置

Windows 系统

路径:C:\mining\logs\
或:挖矿软件目录\logs\

常见文件名:
- miner.log
- debug.log
- latest.log

HiveOS 系统

查看方法 1(Web 界面):
Rigs → 选择矿机 → Logs 标签

查看方法 2(SSH):
cd /var/log/miner
cat miner.log

实时查看:
tail -f /var/log/miner/miner.log

Linux 系统

路径:/var/log/miner/
或:~/miner/logs/

查看命令:
tail -f /var/log/miner/miner.log

2.2 不同挖矿软件的日志

lolMiner

日志格式:
[时间] [级别] 消息
[14:32:15] [Info] GPU0: 85 MH/s
[14:32:18] [Error] GPU3: Share rejected

日志位置:
Windows: miner.log
HiveOS: 自动记录在矿机日志

T-Rex

日志格式:
时间 | 级别 | 消息
14:32:15 | GPU0 | 85 MH/s, temp 72°C
14:32:18 | GPU3 | ERROR: Share rejected

日志位置:
Windows: t-rex.log
HiveOS: 自动记录

Gminer

日志格式:
时间 级别 消息
14:32:15 INFO GPU0: 85 MH/s
14:32:18 ERR GPU3: Share rejected

日志位置:
Windows: miner.log
HiveOS: 自动记录

三、日志级别解读

3.1 常见日志级别

级别英文含义需要处理
信息INFO正常运行信息❌ 不需要
警告WARN潜在问题⚠️ 关注
错误ERROR发生错误✅ 需要处理
调试DEBUG调试信息❌ 不需要
严重FATAL严重错误🚨 立即处理

3.2 示例解读

正常日志

[14:30:00] [Info] GPU0: 85 MH/s, temp 72°C, fan 70%
[14:30:00] [Info] GPU1: 85 MH/s, temp 74°C, fan 72%
[14:30:00] [Info] GPU2: 85 MH/s, temp 73°C, fan 71%

解读:一切正常,无需处理

警告日志

[14:32:00] [Warn] GPU3: Temperature 85°C (threshold 80°C)

解读:温度偏高,需要关注,但还能运行

错误日志

[14:32:15] [Error] GPU3: Share rejected (temperature too high)

解读:发生错误,需要立即处理

严重日志

[14:35:00] [Fatal] GPU3: Device lost, cannot recover

解读:显卡掉线,无法恢复,需要重启或维修


四、常见问题日志分析

4.1 掉卡问题

日志特征

[14:32:15] [Error] GPU3: Device lost
[14:32:18] [Info] GPU3: Trying to recover...
[14:32:20] [Error] GPU3: Recovery failed
[14:32:22] [Info] GPU3: Restarting miner

可能原因

原因日志特征解决方案
温度过高掉卡前温度>85°C清理风扇、提高转速
供电不足掉卡前功耗异常检查电源、降低功耗
驱动问题无明显特征重装驱动
硬件故障频繁掉卡(同一张卡)更换显卡

排查步骤

步骤 1:查看掉卡前温度
→ 如果>85°C,清理散热

步骤 2:查看掉卡前功耗
→ 如果异常高,检查电源

步骤 3:查看掉卡频率
→ 如果同一张卡频繁掉卡,可能硬件故障

步骤 4:交叉测试
→ 换位置、换线,确认是否显卡问题

4.2 算力低问题

日志特征

[14:30:00] [Info] GPU0: 60 MH/s (expected 85 MH/s)
[14:30:00] [Warn] GPU0: Hashrate below threshold

可能原因

原因日志特征解决方案
超频不当算力低 + 温度正常调整超频参数
温度降频算力低 + 温度高改善散热
驱动问题算力低 + 报错重装驱动
矿池问题算力低 + Share 拒绝率高切换矿池

排查步骤

步骤 1:对比历史算力
→ 如果突然下降,检查最近改动

步骤 2:查看温度
→ 如果温度高,改善散热

步骤 3:查看 Share 拒绝率
→ 如果>3%,检查网络或矿池

步骤 4:重置超频
→ 恢复默认,确认是否超频问题

4.3 频繁重启问题

日志特征

[14:30:00] [Info] Miner started
[14:32:00] [Error] Critical error, restarting
[14:32:05] [Info] Miner started
[14:34:00] [Error] Critical error, restarting

可能原因

原因日志特征解决方案
超频过度重启前报错降低超频参数
温度过高重启前温度>90°C改善散热
电源问题重启无规律检查电源功率
软件冲突重启前驱动报错重装系统

排查步骤

步骤 1:查看重启前最后一条日志
→ 通常显示重启原因

步骤 2:检查温度记录
→ 如果>90°C,改善散热

步骤 3:检查超频配置
→ 降低频率和功耗

步骤 4:检查电源功率
→ 确保功率充足

4.4 Share 拒绝率高

日志特征

[14:30:00] [Info] Share accepted (150ms)
[14:30:05] [Error] Share rejected (stale)
[14:30:10] [Error] Share rejected (invalid)

拒绝率计算

拒绝率 = 拒绝 Share 数 / 总 Share 数 × 100%

正常:< 1%
警告:1-3%
异常:> 3%

可能原因

原因日志特征解决方案
网络延迟stale share 多切换节点、检查网络
矿池问题大量 invalid切换矿池
超频不稳定伴随掉卡降低超频
系统问题伴随驱动报错重装系统

排查步骤

步骤 1:查看拒绝类型
→ stale:网络问题
→ invalid:矿池或超频问题

步骤 2:检查网络延迟
→ ping 矿池地址

步骤 3:切换矿池节点
→ 选择延迟低的节点

步骤 4:降低超频
→ 确认是否超频导致

4.5 温度异常

日志特征

[14:30:00] [Warn] GPU3: Temperature 88°C
[14:30:05] [Warn] GPU3: Temperature 90°C
[14:30:10] [Error] GPU3: Temperature 92°C, throttling

温度标准

显卡类型正常警告危险
RTX 30 系列65-75°C80°C85°C+
RTX 40 系列60-70°C75°C80°C+
AMD RX 600070-80°C85°C90°C+

排查步骤

步骤 1:检查风扇转速
→ 如果<50%,提高转速

步骤 2:检查矿场温度
→ 如果环境温度>35°C,改善通风

步骤 3:检查灰尘
→ 清理风扇和散热片

步骤 4:检查硅脂
→ 如果 2 年+ 未更换,更换硅脂

五、日志分析工具

5.1 在线日志分析工具

MinerStat Log Analyzer

网址:https://minerstat.com/log-analyzer
功能:
- 上传日志文件
- 自动分析错误
- 给出解决建议
- 支持主流挖矿软件

使用步骤:
1. 复制日志内容
2. 粘贴到网站
3. 点击"Analyze"
4. 查看分析结果

WhatToMine Log Viewer

网址:https://whattomine.com/log-viewer
功能:
- 实时日志分析
- 错误代码查询
- 社区讨论

使用步骤:
1. 打开网站
2. 粘贴日志
3. 查看错误解释

5.2 本地日志分析脚本

Windows PowerShell 脚本

# 实时查看错误日志
Get-Content C:\mining\logs\miner.log -Wait | Select-String "Error|Fatal"

# 统计错误数量
Get-Content C:\mining\logs\miner.log | Select-String "Error" | Measure-Object

# 查看最近 10 条错误
Get-Content C:\mining\logs\miner.log | Select-String "Error" | Select-Object -Last 10

Linux 命令

# 实时查看错误
tail -f /var/log/miner/miner.log | grep -E "Error|Fatal"

# 统计错误数量
grep -c "Error" /var/log/miner/miner.log

# 查看最近 10 条错误
grep "Error" /var/log/miner/miner.log | tail -10

# 查看特定时间段日志
grep "2026-03-22 14:" /var/log/miner/miner.log

5.3 HiveOS 日志工具

Web 界面

路径:Rigs → 选择矿机 → Logs 标签

功能:
- 实时日志查看
- 搜索关键词
- 下载日志文件
- 按级别过滤

SSH 命令

# 实时查看
tail -f /var/log/miner/miner.log

# 搜索错误
grep -i "error" /var/log/miner/miner.log

# 查看特定 GPU 日志
grep "GPU3" /var/log/miner/miner.log

# 下载日志
scp user@rig-ip:/var/log/miner/miner.log ./local-log.txt

六、日志分析实战案例

案例 1:GPU 频繁掉卡

问题描述: 8 卡 3080 矿机,GPU3 每天掉卡 5-6 次

日志分析

[08:15:23] [Info] GPU3: 85 MH/s, temp 78°C
[08:17:45] [Warn] GPU3: Temperature 85°C
[08:18:02] [Warn] GPU3: Temperature 88°C
[08:18:15] [Error] GPU3: Share rejected (temperature too high)
[08:18:18] [Error] GPU3: Device lost
[08:18:20] [Info] GPU3: Trying to recover...
[08:18:25] [Info] GPU3: Recovery successful

分析结论

  • GPU3 温度持续上升(78°C → 88°C)
  • 温度过高导致 Share 拒绝
  • 最终触发保护机制掉卡

解决方案

  1. 检查 GPU3 风扇 → 发现转速只有 60%
  2. 调整风扇曲线 → 80°C 时转速 85%
  3. 清理灰尘 → 散热片积灰严重
  4. 降低功耗 → 从 170W 降到 160W

结果

  • 温度降至 72-75°C
  • 不再掉卡
  • 算力稳定 85 MH/s

案例 2:总算力突然下降

问题描述: 8 卡矿机,总算力从 680 MH/s 降到 520 MH/s

日志分析

[10:00:00] [Info] Total hashrate: 680 MH/s
[10:15:00] [Info] Total hashrate: 600 MH/s
[10:30:00] [Info] Total hashrate: 520 MH/s
[10:30:00] [Warn] GPU4: Hashrate 40 MH/s (expected 85 MH/s)
[10:30:00] [Warn] GPU5: Hashrate 45 MH/s (expected 85 MH/s)

分析结论

  • GPU4 和 GPU5 算力异常(40-45 MH/s vs 85 MH/s)
  • 其他 GPU 正常
  • 不是矿池或网络问题

排查步骤

  1. 检查 GPU4 和 GPU5 温度 → 正常(72°C)
  2. 检查超频配置 → 正常
  3. 重启矿机 → 问题依旧
  4. 交换 GPU 位置 → 问题跟随显卡

最终原因

  • GPU4 和 GPU5 显频超频过高
  • 长期运行后不稳定

解决方案

  • 显存频率从 +1000 → +800
  • 算力恢复 85 MH/s

案例 3:Share 拒绝率飙升

问题描述: Share 拒绝率从 0.5% 突然升到 8%

日志分析

[14:00:00] [Info] Share accepted (120ms)
[14:00:05] [Info] Share accepted (150ms)
[14:00:10] [Error] Share rejected (stale, 850ms)
[14:00:15] [Error] Share rejected (stale, 920ms)
[14:00:20] [Error] Share rejected (stale, 1200ms)

分析结论

  • 拒绝类型:stale(过期)
  • 网络延迟飙升(120ms → 1200ms)
  • 网络问题,非矿机问题

排查步骤

  1. ping 矿池地址 → 延迟 800ms+
  2. 检查本地网络 → 正常
  3. 切换矿池节点 → 延迟降至 100ms
  4. 拒绝率恢复正常(0.5%)

解决方案

  • 切换到低延迟矿池节点
  • 或更换矿池

七、日志分析速查表

7.1 常见错误代码

错误信息含义解决方案
Device lost显卡掉线检查温度、供电、驱动
Share rejectedShare 拒绝检查网络、矿池、超频
Share staleShare 过期网络延迟高,切换节点
Temperature too high温度过高改善散热、降低功耗
Fan failure风扇故障更换风扇
Driver error驱动错误重装驱动
Out of memory显存不足降低 DAG 负载、重启
Power limit功耗限制提高功耗限制或降低频率

7.2 正常日志示例

lolMiner 正常日志

[14:30:00] [Info] GPU0: 85 MH/s, temp 72°C, fan 70%, power 165W
[14:30:00] [Info] GPU1: 85 MH/s, temp 74°C, fan 72%, power 168W
[14:30:00] [Info] Share accepted (120ms)
[14:30:05] [Info] Share accepted (135ms)

T-Rex 正常日志

14:30:00 | GPU0 | 85 MH/s | 72°C | 70% | 165W
14:30:00 | GPU1 | 85 MH/s | 74°C | 72% | 168W
14:30:05 | OK | Share accepted (135ms)

7.3 异常日志示例

温度异常

[14:30:00] [Warn] GPU3: Temperature 85°C (threshold 80°C)
[14:30:05] [Warn] GPU3: Temperature 88°C
[14:30:10] [Error] GPU3: Temperature 92°C, throttling

掉卡异常

[14:30:00] [Error] GPU3: Device lost
[14:30:03] [Info] GPU3: Trying to recover...
[14:30:08] [Error] GPU3: Recovery failed

网络异常

[14:30:00] [Error] Share rejected (stale, 850ms)
[14:30:05] [Error] Share rejected (stale, 920ms)
[14:30:10] [Warn] Connection to pool lost

八、日志分析最佳实践

8.1 日常检查习惯

每天检查(5 分钟)

1. 查看日志是否有 ERROR
2. 检查 Share 拒绝率
3. 确认无温度警告

每周检查(15 分钟)

1. 导出整周日志
2. 统计错误频率
3. 分析趋势(是否有恶化)
4. 清理旧日志

每月检查(30 分钟)

1. 回顾整月日志
2. 统计停机时间
3. 分析常见问题
4. 优化配置

8.2 日志保存策略

保存时长

- 最近 7 天:完整日志(实时查看)
- 最近 30 天:压缩日志(需要时解压)
- 30 天+:删除或归档

保存位置

- 本地:/var/log/miner/
- 远程:NAS 或云存储
- 备份:每周备份一次

8.3 告警设置

HiveOS 告警

设置路径:Rigs → Settings → Notifications

建议告警:
- GPU 掉线:立即通知
- 温度>85°C:立即通知
- 算力下降>20%:5 分钟内通知
- 矿机离线:立即通知

Telegram 机器人

可以设置日志关键词告警:
- 包含"Error" → 发送通知
- 包含"Fatal" → 电话通知
- 包含"Device lost" → 立即通知

九、总结

日志分析核心要点

  1. 学会看日志级别 - INFO/WARN/ERROR/FATAL
  2. 掌握常见错误 - 掉卡、算力低、拒绝率高
  3. 使用分析工具 - 在线工具 + 本地脚本
  4. 建立检查习惯 - 每天/每周/每月
  5. 设置告警通知 - 问题第一时间知道

日志分析能力成长路径

新手(1-2 周):
- 知道日志在哪里
- 能看懂日志级别
- 会搜索关键词

老手(1-2 月):
- 快速定位问题
- 理解错误原因
- 独立解决 80% 问题

专家(3-6 月):
- 预测潜在问题
- 优化配置预防
- 帮助他人解决

记住: 日志是矿机的"黑匣子",学会看日志,你就掌握了 90% 的故障排查能力。


下期预告:《挖矿软件自动更新与备份策略:避免配置丢失,快速恢复生产》

互动话题:你遇到过最难的挖矿问题是什么?怎么解决的?欢迎评论区分享!


本文基于主流挖矿软件日志编写,不同软件日志格式可能略有差异。 最后更新:2026 年 3 月 22 日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信扫一扫,分享到朋友圈

挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close