NCC 健康检查:fs_inconsistency_check
NCC 健康检查:fs_inconsistency_check
NCC 健康检查:fs_inconsistency_check
描述
NCC 健康检查fs_inconsistency_check通过检查dmesg中的 EXT4-fs 错误/警告消息并扫描所有已安装磁盘的tune2fs输出来验证集群中的任何 CVM(控制器 VM)是否遇到文件系统不一致。从 NCC 4.4.0 开始,如果导致不一致的故障磁盘从集群中卸载,则检查将跳过对已删除磁盘的执行并通过。
这个插件是在 NCC 版本 3.9.3 中引入的。
检查在所有平台和管理程序上的 CVM 上运行,计划每 24 小时对 CVM dmesg 环形缓冲区中的前 24 小时数据运行一次。
从 NCC-4.1.0 开始,此检查将在计划时间间隔内发生 1 次并发故障后生成警报A3038 。
在 NCC 4.5.0 中,删除了对 dmesg 日志的依赖,取而代之的是检查系统计数器以实时显示错误数量。
运行 NCC 检查
可以通过运行以下命令将检查作为完整 NCC 的一部分运行:
它也可以单独运行,如下所示:
您还可以从 Prism Web 控制台运行状况页面运行检查。选择操作>运行检查>所有检查>运行。
样本输出
状态:通过
[================================================== =] 100%
/health_checks/system_checks/fs_inconsistency_check [通过]
-------------------------------------------------- --------------------------------------------+
+------------------------+
|状态 |计数 |
+------------------------+
|通行证 | 1 |
|插件总数 | 1 |
+------------------------+
如果检查结果为PASS ,则没有检测到文件系统不一致。无需采取任何行动。
对于状态:警告
[================================================== =] 100%
/health_checks/system_checks/fs_inconsistency_check [警告]
-------------------------------------------------- --------------------------------------------+
fs_inconsistency_check 的详细信息:
节点 xyz10:
警告:在 dmesg 中检测到 2 个 EXT4-fs 错误消息。发生的错误是:
[2019 年 11 月 19 日星期二 06:08:46] EXT4-fs 错误(设备 sdaX):ext4_lookup:1441:inode #xxxxxx:comm postdrop:删除的 inode 引用:532994
[2019 年 11 月 19 日星期二 06:09:14] EXT4-fs 错误(设备 sdaX):ext4_lookup:1441:inode #xxxxxx:comm postdrop:删除的 inode 引用:532194
有关 fs_inconsistency_check 或重新检查的详细信息,请参阅 KB 8514 (http://portal.nutanix.com/kb/8514):ncc health_checks system_checks fs_inconsistency_check --cvm_list=xyz10
如果一个或多个 CVM 正在记录文件系统不一致,检查将导致WARN
注意:从 NCC-4.5.0 及更高版本开始,严重性更改为FAIL 。当检查失败时,最终用户将在 UI 上体验“Critical”警报和在 CLI 上体验“FAIL”状态。
输出消息
检查身份证 | 3038 |
描述 | 捕获 EXT4-fs 错误消息 |
失败的原因 | 节点上存在文件系统不一致。 |
决议 | 查找文件系统中的任何问题。查看知识库 8514。 |
影响 | CVM 无法启动或升级预检查无法运行。 |
警报 ID | A3038 |
警报标题 | 检测到文件系统不一致。 |
警报智能标题 | 在 CVM 上检测到文件系统不一致: cvm_IP |
提示信息 | CVM 检测到 EXT4 文件系统错误: cvm_ip : alert_msg |
解决方案
调查 WARN
如果检查报告一个或多个 CVM 上的 EXT4 文件系统错误,请考虑联系Nutanix 支持。
要加快解决时间并将可能的影响降至最低,请避免在集群上执行任何涉及重新启动(包括升级)的活动。此外,收集以下信息并将其附加到支持案例中:
- 完整的 NCC 报告:
- 从集群生成的日志包。这可以通过 Prism Web Console 的健康页面收集。选择操作 > 收集日志。也可以使用logbay通过命令行收集日志( KB 6691 - NCC - Logbay 快速入门指南)
- 以下命令的输出,收集自具有 EXT4 fs-error 的 CVM:
附加信息
- Nutanix KB 8514 - Nutanix 门户中的原始文档