文章目录[隐藏]

挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能
挖矿软件日志分析实战:10 分钟定位掉卡、算力低、频繁重启问题,老矿工必备技能
核心价值:学会看日志,不求人,自己解决 90% 的挖矿问题
适合人群:遇到挖矿问题、想提升排查能力、不想每次都问人的矿工
一、为什么日志分析这么重要?
1.1 真实案例
上周有个朋友找我: "我的 3080 矿机频繁掉卡,每天重启 3-4 次,怎么办?"
我的第一步:
"把日志发我看看"
日志显示:
[14:32:15] GPU3: Temperature 92°C, throttling
[14:32:18] GPU3: Share rejected, temperature too high
[14:32:20] GPU3: Device lost, restarting...
问题定位:GPU3 温度过高(92°C),触发保护机制
解决方案:
- 清理 GPU3 风扇灰尘
- 调整风扇转速从 70% → 85%
- 核心频率降低 50MHz
结果:问题彻底解决,不再掉卡
1.2 日志的价值
不会看日志:
问题:掉卡
❌ 错误做法:
- 重启试试
- 问别人怎么办
- 换矿池试试
- 折腾 3 天没解决
会看日志:
问题:掉卡
✅ 正确做法:
- 打开日志
- 搜索"error"或"failed"
- 定位具体原因(温度/供电/驱动)
- 针对性解决
- 10 分钟搞定
差距:3 天 vs 10 分钟
二、日志文件在哪里?
2.1 不同系统的日志位置
Windows 系统:
路径:C:\mining\logs\
或:挖矿软件目录\logs\
常见文件名:
- miner.log
- debug.log
- latest.log
HiveOS 系统:
查看方法 1(Web 界面):
Rigs → 选择矿机 → Logs 标签
查看方法 2(SSH):
cd /var/log/miner
cat miner.log
实时查看:
tail -f /var/log/miner/miner.log
Linux 系统:
路径:/var/log/miner/
或:~/miner/logs/
查看命令:
tail -f /var/log/miner/miner.log
2.2 不同挖矿软件的日志
lolMiner:
日志格式:
[时间] [级别] 消息
[14:32:15] [Info] GPU0: 85 MH/s
[14:32:18] [Error] GPU3: Share rejected
日志位置:
Windows: miner.log
HiveOS: 自动记录在矿机日志
T-Rex:
日志格式:
时间 | 级别 | 消息
14:32:15 | GPU0 | 85 MH/s, temp 72°C
14:32:18 | GPU3 | ERROR: Share rejected
日志位置:
Windows: t-rex.log
HiveOS: 自动记录
Gminer:
日志格式:
时间 级别 消息
14:32:15 INFO GPU0: 85 MH/s
14:32:18 ERR GPU3: Share rejected
日志位置:
Windows: miner.log
HiveOS: 自动记录
三、日志级别解读
3.1 常见日志级别
| 级别 | 英文 | 含义 | 需要处理 |
|---|---|---|---|
| 信息 | INFO | 正常运行信息 | ❌ 不需要 |
| 警告 | WARN | 潜在问题 | ⚠️ 关注 |
| 错误 | ERROR | 发生错误 | ✅ 需要处理 |
| 调试 | DEBUG | 调试信息 | ❌ 不需要 |
| 严重 | FATAL | 严重错误 | 🚨 立即处理 |
3.2 示例解读
正常日志:
[14:30:00] [Info] GPU0: 85 MH/s, temp 72°C, fan 70%
[14:30:00] [Info] GPU1: 85 MH/s, temp 74°C, fan 72%
[14:30:00] [Info] GPU2: 85 MH/s, temp 73°C, fan 71%
解读:一切正常,无需处理
警告日志:
[14:32:00] [Warn] GPU3: Temperature 85°C (threshold 80°C)
解读:温度偏高,需要关注,但还能运行
错误日志:
[14:32:15] [Error] GPU3: Share rejected (temperature too high)
解读:发生错误,需要立即处理
严重日志:
[14:35:00] [Fatal] GPU3: Device lost, cannot recover
解读:显卡掉线,无法恢复,需要重启或维修
四、常见问题日志分析
4.1 掉卡问题
日志特征:
[14:32:15] [Error] GPU3: Device lost
[14:32:18] [Info] GPU3: Trying to recover...
[14:32:20] [Error] GPU3: Recovery failed
[14:32:22] [Info] GPU3: Restarting miner
可能原因:
| 原因 | 日志特征 | 解决方案 |
|---|---|---|
| 温度过高 | 掉卡前温度>85°C | 清理风扇、提高转速 |
| 供电不足 | 掉卡前功耗异常 | 检查电源、降低功耗 |
| 驱动问题 | 无明显特征 | 重装驱动 |
| 硬件故障 | 频繁掉卡(同一张卡) | 更换显卡 |
排查步骤:
步骤 1:查看掉卡前温度
→ 如果>85°C,清理散热
步骤 2:查看掉卡前功耗
→ 如果异常高,检查电源
步骤 3:查看掉卡频率
→ 如果同一张卡频繁掉卡,可能硬件故障
步骤 4:交叉测试
→ 换位置、换线,确认是否显卡问题
4.2 算力低问题
日志特征:
[14:30:00] [Info] GPU0: 60 MH/s (expected 85 MH/s)
[14:30:00] [Warn] GPU0: Hashrate below threshold
可能原因:
| 原因 | 日志特征 | 解决方案 |
|---|---|---|
| 超频不当 | 算力低 + 温度正常 | 调整超频参数 |
| 温度降频 | 算力低 + 温度高 | 改善散热 |
| 驱动问题 | 算力低 + 报错 | 重装驱动 |
| 矿池问题 | 算力低 + Share 拒绝率高 | 切换矿池 |
排查步骤:
步骤 1:对比历史算力
→ 如果突然下降,检查最近改动
步骤 2:查看温度
→ 如果温度高,改善散热
步骤 3:查看 Share 拒绝率
→ 如果>3%,检查网络或矿池
步骤 4:重置超频
→ 恢复默认,确认是否超频问题
4.3 频繁重启问题
日志特征:
[14:30:00] [Info] Miner started
[14:32:00] [Error] Critical error, restarting
[14:32:05] [Info] Miner started
[14:34:00] [Error] Critical error, restarting
可能原因:
| 原因 | 日志特征 | 解决方案 |
|---|---|---|
| 超频过度 | 重启前报错 | 降低超频参数 |
| 温度过高 | 重启前温度>90°C | 改善散热 |
| 电源问题 | 重启无规律 | 检查电源功率 |
| 软件冲突 | 重启前驱动报错 | 重装系统 |
排查步骤:
步骤 1:查看重启前最后一条日志
→ 通常显示重启原因
步骤 2:检查温度记录
→ 如果>90°C,改善散热
步骤 3:检查超频配置
→ 降低频率和功耗
步骤 4:检查电源功率
→ 确保功率充足
4.4 Share 拒绝率高
日志特征:
[14:30:00] [Info] Share accepted (150ms)
[14:30:05] [Error] Share rejected (stale)
[14:30:10] [Error] Share rejected (invalid)
拒绝率计算:
拒绝率 = 拒绝 Share 数 / 总 Share 数 × 100%
正常:< 1%
警告:1-3%
异常:> 3%
可能原因:
| 原因 | 日志特征 | 解决方案 |
|---|---|---|
| 网络延迟 | stale share 多 | 切换节点、检查网络 |
| 矿池问题 | 大量 invalid | 切换矿池 |
| 超频不稳定 | 伴随掉卡 | 降低超频 |
| 系统问题 | 伴随驱动报错 | 重装系统 |
排查步骤:
步骤 1:查看拒绝类型
→ stale:网络问题
→ invalid:矿池或超频问题
步骤 2:检查网络延迟
→ ping 矿池地址
步骤 3:切换矿池节点
→ 选择延迟低的节点
步骤 4:降低超频
→ 确认是否超频导致
4.5 温度异常
日志特征:
[14:30:00] [Warn] GPU3: Temperature 88°C
[14:30:05] [Warn] GPU3: Temperature 90°C
[14:30:10] [Error] GPU3: Temperature 92°C, throttling
温度标准:
| 显卡类型 | 正常 | 警告 | 危险 |
|---|---|---|---|
| RTX 30 系列 | 65-75°C | 80°C | 85°C+ |
| RTX 40 系列 | 60-70°C | 75°C | 80°C+ |
| AMD RX 6000 | 70-80°C | 85°C | 90°C+ |
排查步骤:
步骤 1:检查风扇转速
→ 如果<50%,提高转速
步骤 2:检查矿场温度
→ 如果环境温度>35°C,改善通风
步骤 3:检查灰尘
→ 清理风扇和散热片
步骤 4:检查硅脂
→ 如果 2 年+ 未更换,更换硅脂
五、日志分析工具
5.1 在线日志分析工具
MinerStat Log Analyzer:
网址:https://minerstat.com/log-analyzer
功能:
- 上传日志文件
- 自动分析错误
- 给出解决建议
- 支持主流挖矿软件
使用步骤:
1. 复制日志内容
2. 粘贴到网站
3. 点击"Analyze"
4. 查看分析结果
WhatToMine Log Viewer:
网址:https://whattomine.com/log-viewer
功能:
- 实时日志分析
- 错误代码查询
- 社区讨论
使用步骤:
1. 打开网站
2. 粘贴日志
3. 查看错误解释
5.2 本地日志分析脚本
Windows PowerShell 脚本:
# 实时查看错误日志
Get-Content C:\mining\logs\miner.log -Wait | Select-String "Error|Fatal"
# 统计错误数量
Get-Content C:\mining\logs\miner.log | Select-String "Error" | Measure-Object
# 查看最近 10 条错误
Get-Content C:\mining\logs\miner.log | Select-String "Error" | Select-Object -Last 10
Linux 命令:
# 实时查看错误
tail -f /var/log/miner/miner.log | grep -E "Error|Fatal"
# 统计错误数量
grep -c "Error" /var/log/miner/miner.log
# 查看最近 10 条错误
grep "Error" /var/log/miner/miner.log | tail -10
# 查看特定时间段日志
grep "2026-03-22 14:" /var/log/miner/miner.log
5.3 HiveOS 日志工具
Web 界面:
路径:Rigs → 选择矿机 → Logs 标签
功能:
- 实时日志查看
- 搜索关键词
- 下载日志文件
- 按级别过滤
SSH 命令:
# 实时查看
tail -f /var/log/miner/miner.log
# 搜索错误
grep -i "error" /var/log/miner/miner.log
# 查看特定 GPU 日志
grep "GPU3" /var/log/miner/miner.log
# 下载日志
scp user@rig-ip:/var/log/miner/miner.log ./local-log.txt
六、日志分析实战案例
案例 1:GPU 频繁掉卡
问题描述: 8 卡 3080 矿机,GPU3 每天掉卡 5-6 次
日志分析:
[08:15:23] [Info] GPU3: 85 MH/s, temp 78°C
[08:17:45] [Warn] GPU3: Temperature 85°C
[08:18:02] [Warn] GPU3: Temperature 88°C
[08:18:15] [Error] GPU3: Share rejected (temperature too high)
[08:18:18] [Error] GPU3: Device lost
[08:18:20] [Info] GPU3: Trying to recover...
[08:18:25] [Info] GPU3: Recovery successful
分析结论:
- GPU3 温度持续上升(78°C → 88°C)
- 温度过高导致 Share 拒绝
- 最终触发保护机制掉卡
解决方案:
- 检查 GPU3 风扇 → 发现转速只有 60%
- 调整风扇曲线 → 80°C 时转速 85%
- 清理灰尘 → 散热片积灰严重
- 降低功耗 → 从 170W 降到 160W
结果:
- 温度降至 72-75°C
- 不再掉卡
- 算力稳定 85 MH/s
案例 2:总算力突然下降
问题描述: 8 卡矿机,总算力从 680 MH/s 降到 520 MH/s
日志分析:
[10:00:00] [Info] Total hashrate: 680 MH/s
[10:15:00] [Info] Total hashrate: 600 MH/s
[10:30:00] [Info] Total hashrate: 520 MH/s
[10:30:00] [Warn] GPU4: Hashrate 40 MH/s (expected 85 MH/s)
[10:30:00] [Warn] GPU5: Hashrate 45 MH/s (expected 85 MH/s)
分析结论:
- GPU4 和 GPU5 算力异常(40-45 MH/s vs 85 MH/s)
- 其他 GPU 正常
- 不是矿池或网络问题
排查步骤:
- 检查 GPU4 和 GPU5 温度 → 正常(72°C)
- 检查超频配置 → 正常
- 重启矿机 → 问题依旧
- 交换 GPU 位置 → 问题跟随显卡
最终原因:
- GPU4 和 GPU5 显频超频过高
- 长期运行后不稳定
解决方案:
- 显存频率从 +1000 → +800
- 算力恢复 85 MH/s
案例 3:Share 拒绝率飙升
问题描述: Share 拒绝率从 0.5% 突然升到 8%
日志分析:
[14:00:00] [Info] Share accepted (120ms)
[14:00:05] [Info] Share accepted (150ms)
[14:00:10] [Error] Share rejected (stale, 850ms)
[14:00:15] [Error] Share rejected (stale, 920ms)
[14:00:20] [Error] Share rejected (stale, 1200ms)
分析结论:
- 拒绝类型:stale(过期)
- 网络延迟飙升(120ms → 1200ms)
- 网络问题,非矿机问题
排查步骤:
- ping 矿池地址 → 延迟 800ms+
- 检查本地网络 → 正常
- 切换矿池节点 → 延迟降至 100ms
- 拒绝率恢复正常(0.5%)
解决方案:
- 切换到低延迟矿池节点
- 或更换矿池
七、日志分析速查表
7.1 常见错误代码
| 错误信息 | 含义 | 解决方案 |
|---|---|---|
| Device lost | 显卡掉线 | 检查温度、供电、驱动 |
| Share rejected | Share 拒绝 | 检查网络、矿池、超频 |
| Share stale | Share 过期 | 网络延迟高,切换节点 |
| Temperature too high | 温度过高 | 改善散热、降低功耗 |
| Fan failure | 风扇故障 | 更换风扇 |
| Driver error | 驱动错误 | 重装驱动 |
| Out of memory | 显存不足 | 降低 DAG 负载、重启 |
| Power limit | 功耗限制 | 提高功耗限制或降低频率 |
7.2 正常日志示例
lolMiner 正常日志:
[14:30:00] [Info] GPU0: 85 MH/s, temp 72°C, fan 70%, power 165W
[14:30:00] [Info] GPU1: 85 MH/s, temp 74°C, fan 72%, power 168W
[14:30:00] [Info] Share accepted (120ms)
[14:30:05] [Info] Share accepted (135ms)
T-Rex 正常日志:
14:30:00 | GPU0 | 85 MH/s | 72°C | 70% | 165W
14:30:00 | GPU1 | 85 MH/s | 74°C | 72% | 168W
14:30:05 | OK | Share accepted (135ms)
7.3 异常日志示例
温度异常:
[14:30:00] [Warn] GPU3: Temperature 85°C (threshold 80°C)
[14:30:05] [Warn] GPU3: Temperature 88°C
[14:30:10] [Error] GPU3: Temperature 92°C, throttling
掉卡异常:
[14:30:00] [Error] GPU3: Device lost
[14:30:03] [Info] GPU3: Trying to recover...
[14:30:08] [Error] GPU3: Recovery failed
网络异常:
[14:30:00] [Error] Share rejected (stale, 850ms)
[14:30:05] [Error] Share rejected (stale, 920ms)
[14:30:10] [Warn] Connection to pool lost
八、日志分析最佳实践
8.1 日常检查习惯
每天检查(5 分钟):
1. 查看日志是否有 ERROR
2. 检查 Share 拒绝率
3. 确认无温度警告
每周检查(15 分钟):
1. 导出整周日志
2. 统计错误频率
3. 分析趋势(是否有恶化)
4. 清理旧日志
每月检查(30 分钟):
1. 回顾整月日志
2. 统计停机时间
3. 分析常见问题
4. 优化配置
8.2 日志保存策略
保存时长:
- 最近 7 天:完整日志(实时查看)
- 最近 30 天:压缩日志(需要时解压)
- 30 天+:删除或归档
保存位置:
- 本地:/var/log/miner/
- 远程:NAS 或云存储
- 备份:每周备份一次
8.3 告警设置
HiveOS 告警:
设置路径:Rigs → Settings → Notifications
建议告警:
- GPU 掉线:立即通知
- 温度>85°C:立即通知
- 算力下降>20%:5 分钟内通知
- 矿机离线:立即通知
Telegram 机器人:
可以设置日志关键词告警:
- 包含"Error" → 发送通知
- 包含"Fatal" → 电话通知
- 包含"Device lost" → 立即通知
九、总结
日志分析核心要点:
- 学会看日志级别 - INFO/WARN/ERROR/FATAL
- 掌握常见错误 - 掉卡、算力低、拒绝率高
- 使用分析工具 - 在线工具 + 本地脚本
- 建立检查习惯 - 每天/每周/每月
- 设置告警通知 - 问题第一时间知道
日志分析能力成长路径:
新手(1-2 周):
- 知道日志在哪里
- 能看懂日志级别
- 会搜索关键词
老手(1-2 月):
- 快速定位问题
- 理解错误原因
- 独立解决 80% 问题
专家(3-6 月):
- 预测潜在问题
- 优化配置预防
- 帮助他人解决
记住: 日志是矿机的"黑匣子",学会看日志,你就掌握了 90% 的故障排查能力。
下期预告:《挖矿软件自动更新与备份策略:避免配置丢失,快速恢复生产》
互动话题:你遇到过最难的挖矿问题是什么?怎么解决的?欢迎评论区分享!
本文基于主流挖矿软件日志编写,不同软件日志格式可能略有差异。 最后更新:2026 年 3 月 22 日