NCC 健康检查:fs_inconsistency_check

NCC 健康检查:fs_inconsistency_check

NCC 健康检查:fs_inconsistency_check

这是机器翻译的文章,请单击此处查看原始英文版本。

描述

NCC 健康检查fs_inconsistency_check通过检查dmesg中的 EXT4-fs 错误/警告消息并扫描所有已安装磁盘的tune2fs输出来验证集群中的任何 CVM(控制器 VM)是否遇到文件系统不一致。从 NCC 4.4.0 开始,如果导致不一致的故障磁盘从集群中卸载,则检查将跳过对已删除磁盘的执行并通过。

这个插件是在 NCC 版本 3.9.3 中引入的。

检查在所有平台和管理程序上的 CVM 上运行,计划每 24 小时对 CVM dmesg 环形缓冲区中的前 24 小时数据运行一次。
从 NCC-4.1.0 开始,此检查将在计划时间间隔内发生 1 次并发故障后生成警报A3038

在 NCC 4.5.0 中,删除了对 dmesg 日志的依赖,取而代之的是检查系统计数器以实时显示错误数量。

运行 NCC 检查

可以通过运行以下命令将检查作为完整 NCC 的一部分运行:

nutanix@CVM$ ncc health_checks run_all

它也可以单独运行,如下所示:

nutanix@CVM$ ncc health_checks system_checks fs_inconsistency_check

您还可以从 Prism Web 控制台运行状况页面运行检查。选择操作>运行检查>所有检查>运行

样本输出

状态:通过

运行:health_checks system_checks fs_inconsistency_check
[================================================== =] 100%
/health_checks/system_checks/fs_inconsistency_check [通过]
-------------------------------------------------- --------------------------------------------+
+------------------------+
|状态 |计数 |
+------------------------+
|通行证 | 1 |
|插件总数 | 1 |
+------------------------+

如果检查结果为PASS ,则没有检测到文件系统不一致。无需采取任何行动。


对于状态:警告

运行:health_checks system_checks fs_inconsistency_check
[================================================== =] 100%
/health_checks/system_checks/fs_inconsistency_check [警告]
-------------------------------------------------- --------------------------------------------+
fs_inconsistency_check 的详细信息:
节点 xyz10:
警告:在 dmesg 中检测到 2 个 EXT4-fs 错误消息。发生的错误是:
[2019 年 11 月 19 日星期二 06:08:46] EXT4-fs 错误(设备 sdaX):ext4_lookup:1441:inode #xxxxxx:comm postdrop:删除的 inode 引用:532994
[2019 年 11 月 19 日星期二 06:09:14] EXT4-fs 错误(设备 sdaX):ext4_lookup:1441:inode #xxxxxx:comm postdrop:删除的 inode 引用:532194
有关 fs_inconsistency_check 或重新检查的详细信息,请参阅 KB 8514 (http://portal.nutanix.com/kb/8514):ncc health_checks system_checks fs_inconsistency_check --cvm_list=xyz10

如果一个或多个 CVM 正在记录文件系统不一致,检查将导致WARN

注意:从 NCC-4.5.0 及更高版本开始,严重性更改为FAIL 。当检查失败时,最终用户将在 UI 上体验“Critical”警报和在 CLI 上体验“FAIL”状态。

输出消息

检查身份证 3038
描述 捕获 EXT4-fs 错误消息
失败的原因 节点上存在文件系统不一致。
决议 查找文件系统中的任何问题。查看知识库 8514。
影响 CVM 无法启动或升级预检查无法运行。
警报 ID A3038
警报标题 检测到文件系统不一致。
警报智能标题 在 CVM 上检测到文件系统不一致: cvm_IP
提示信息 CVM 检测到 EXT4 文件系统错误: cvm_ip : alert_msg

解决方案

调查 WARN

如果检查报告一个或多个 CVM 上的 EXT4 文件系统错误,请考虑联系Nutanix 支持

要加快解决时间并将可能的影响降至最低,请避免在集群上执行任何涉及重新启动(包括升级)的活动。此外,收集以下信息并将其附加到支持案例中:

  • 完整的 NCC 报告:
nutanix@cvm:~ $ ncc health_checks run_all
  • 从集群生成的日志包。这可以通过 Prism Web Console 的健康页面收集。选择操作 > 收集日志。也可以使用logbay通过命令行收集日志( KB 6691 - NCC - Logbay 快速入门指南
nutanix@cvm:~ $ logbay collect
  • 以下命令的输出,收集自具有 EXT4 fs-error 的 CVM:
nutanix@cvm:~ $ sudo dmesg -T

附加信息

文件ID:HT514183
初始发布日期:09/09/2022
最近修改日期:09/25/2022