NCC 健康检查:pcvm_disk_usage_check
NCC 健康检查:pcvm_disk_usage_check
NCC 健康检查:pcvm_disk_usage_check
描述
NCC 健康检查pcvm_disk_usage_check验证 Prism Central (PC) VM 中的磁盘或系统分区使用量是否在限制范围内。
此项检查包含以下部分:
- 检查单个数据磁盘使用情况(NCC 3.5.1 中添加):
- 如果使用率持续数小时超过 75%,则会返回警告以识别磁盘。
- 如果使用率持续数小时超过 90%,则会返回 FAIL 来识别磁盘。
- 检查整体数据磁盘使用情况(NCC 3.10.1 中添加):
- 如果几个小时内总体使用率超过 90%,则会返回警告。
- 如果几个小时内总体使用率超过 90%,则会返回警告。
- 检查 Prism Central VM 系统根分区使用情况(在 NCC 3.9.4 中添加)。如果分区使用率超过 95%,则仅返回 FAIL 消息。
- 检查 Prism Central VM 主分区使用情况(在 NCC 3.9.4 中添加):
- 如果使用率超过 75%,则会返回警告。
- 如果使用率超过 90%,则返回 FAIL。
- 检查 Prism Central VM CMSP 分区使用情况(在 NCC 3.10.1 中添加):
- 如果使用率超过 75%,则会返回警告。
- 如果使用率超过 90%,则返回 FAIL。
- 检查 Prism Central VM 升级磁盘分区使用情况(在 NCC 4.6.0 中添加):
- 如果使用率超过 70%,则返回 FAIL。
- 此检查每 5 分钟运行一次。
- 如果故障超过 5 次(30 分钟),则会发出严重警报。
注意:如果您正在运行 LCM-2.6 或 LCM-2.6.0.1,LCM 日志收集将填满 /home 目录,请参阅KB-14671寻求解决方法。
运行 NCC 检查
将 NCC 检查作为完整 NCC 健康检查的一部分运行。
点击这里 显示以下详细信息:
nutanix@pcvm$ ncc health_checks run_all
或者单独运行pcvm_disk_usage_check检查。
nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check
您还可以从 Prism Web 控制台健康页面运行检查:选择操作>运行检查。选择所有检查并单击运行。
默认情况下,此检查每 5 分钟运行一次。
此检查将在预定时间间隔内连续 5 次失败后生成警报。
示例输出
状态:通过
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ PASS ] -------------------------------------------------------------------------------+ +---------------+ | State | Count | +---------------+ | Pass | 1 | | Total | 1 | +---------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:警告(在 Prism Central VM 数据磁盘上,例如 /dev/sdc1)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds warning limit 75 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:警告(在 Prism Central VM 上,整个 MultiVDisk 上)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx overall MultiVDisk usage exceeds warning limit of 2321329924 KB. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态: FAIL (在 Prism Central VM 数据磁盘上,例如 /dev/sdc1)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds critical limit 90 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:失败(在根分区,即 /)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: PC VM root partition xxxx disk usage exceeds critical limit 95 % for disks: 97%. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------+ | State | Count | +-----------------+ | Fail | 1 | | Total | 1 | +-----------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:警告(在 Prism Central VM 主分区,即 /home)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds warning limit 75 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:失败(在 Prism Central VM 主分区,即 /home)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds critical limit 90 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:警告(在 Prism Central VM CMSP 分区上,即 /dev/sde)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Platform disk space usage in Prism Central VM xxxx exceeds 75% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:失败(在 Prism Central VM CMSP 分区上,即 /dev/sde)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx : FAIL: Platform disk space usage in Prism Central VM xxxx exceeds 90% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
状态:失败(在 Prism Central VM 升级磁盘分区上,即 /home/nutanix/upgrade)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: Prism Central VM xxxx upgrade disk usage exceeds critical limit 70 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
注意:本文中所有在 PC 上运行的命令都假设您通过 SSH 登录 PC VM。
检查 PC VM 中的磁盘使用情况
以下是如何检查 PC VM 上的磁盘使用情况的示例。
点击这里 显示以下示例:
nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on /dev/sdb1 9.8G 7.2G 2.2G 78% / devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 16K 7.9G 1% /dev/shm tmpfs 7.9G 428K 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb3 40G 4.4G 35G 12% /home /dev/sdc1 493G 431G 57G 69% /home/nutanix/data/stargate-storage/disks/NFS_1_0_450_823394be_0c7b_4f18_8335_71bae1bc6c82 tmpfs 1.6G 0 1.6G 0% /run/user/1000
升级磁盘的分区将显示类似以下内容:
/dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade
输出消息
|
101059 |
---|---|
|
检查 Prism Central VM 上的磁盘空间使用情况是否在限制范围内。 |
|
Prism Central VM 的磁盘使用率很高。 |
|
有关更多详细信息,请参阅 KB 5228。 |
|
Prism Central VM 可能会耗尽用于存储数据的存储空间。 |
|
A101059 |
|
Prism Central VM 磁盘使用率高 |
|
Prism Central VM IP磁盘使用率超过磁盘的警告限制x %:磁盘。 Prism Central VM IP整体 MultiVDisk 使用量超过 2321329924 KB 的警告限制 Prism Central VM IP磁盘使用率超出磁盘的临界限制x %:磁盘。 |
|
200316 |
---|---|
|
检查 Prism Central 系统根分区使用情况是否在阈值内,以确保不间断操作。 |
|
由于过多的日志记录或不完整的维护操作,Prism Central VM 系统根分区的使用率增加了。 |
|
通过删除任何已知的临时或不需要的文件来减少 Prism Central VM 系统根分区的使用。有关更多详细信息,请参阅 KB 5228。 |
|
如果 Prism Central VM 系统根分区利用率过高,某些维护操作(例如升级)可能会受到影响。如果 Prism Central VM 系统根分区利用率达到 100%,服务可能会停止并影响 Prism Central 集群管理功能。 |
|
A200316 |
|
|
|
实体- ip_address上的根分区mount_path的磁盘空间使用量已超过阈值%。 |
|
200317 |
---|---|
|
检查 Prism Central 主分区使用情况是否在阈值范围内,以确保不间断操作。 |
|
由于过多的日志记录或不完整的维护操作,导致 Prism Central VM 主分区的使用率增加。 |
|
通过删除任何已知的临时或不需要的文件来减少 Prism Central VM 主分区的使用。有关更多详细信息,请参阅 KB 5228。 |
|
如果 Prism Central VM 主分区利用率过高,则某些维护操作(例如升级)可能会受到影响。如果 Prism Central VM 主分区利用率达到 100%,则服务可能会停止并影响集群存储可用性。 |
|
A200317 |
|
Prism Central VM 主分区磁盘使用率高 |
|
Prism Central VM IP主分区磁盘使用率超过警告限制x %。 Prism Central VM IP主分区磁盘使用率超过临界限制x %。 |
|
200328 |
---|---|
|
检查 Prism Central VM 上的平台磁盘空间使用情况是否在限制范围内。 |
|
Prism Central VM 的磁盘使用率很高。 |
|
有关更多详细信息,请参阅 KB 5228。 |
|
Prism Central VM 可能会耗尽用于存储数据的存储空间。 |
|
A200328 |
|
Prism Central VM 平台磁盘空间使用率高 |
|
Prism Central VM svm_ip平台磁盘空间使用率高 |
|
Prism Central VM svm_ip中的平台磁盘空间使用量超出磁盘的percentage_exceed %: disk_paths 。 |
|
200334 |
---|---|
|
检查 Prism Central 升级磁盘使用情况是否在阈值内,以确保升级操作不中断。 |
|
由于存在多个 Prism Central 安装程序文件,导致 Prism Central VM 升级磁盘使用量增加 |
|
通过删除不需要的 Prism Central 安装程序文件来减少 Prism Central VM 升级分区的使用。有关更多详细信息,请参阅 KB 5228。 |
|
如果 Prism Central VM 升级磁盘利用率过高,则 Prism Central 升级将因升级磁盘空间不足而失败。 |
|
A200334 |
|
Prism Central VM 升级磁盘使用情况 |
|
Prism Central VM <IP> 升级磁盘使用率超过临界限制 x% |
触发 pcvm_disk_usage 检查 /home 分区上的警告/失败的场景
点击这里 显示此步骤的详细信息:
场景 1
由于未清理旧的 Prism 代码,长期运行的 PC 实例上的/home目录可能会接近其最大限制:
nutanix@pcvm$ cat ~/config/upgrade.history Thu, 17 Dec 2020 08:51:43 el7.3-release-euphrates-5.19-stable-b2ab98294375c3f24f4d813b83ffcb43d85ebcc1 Tue, 19 Jan 2021 11:53:43 el7.3-release-euphrates-5.19-stable-aadf03fd084cb00f0414f84549b7ebbe9691a984 Wed, 24 Feb 2021 08:53:13 el7.3-release-euphrates-5.19-stable-ddf5fcc232b693ae965280668b10d0337ce99281 Mon, 19 Apr 2021 07:03:39 el7.3-release-euphrates-5.19-stable-6d6cec7de63c8fd117eeb59162031d03c2faf548 Mon, 26 Apr 2021 07:00:07 el7.3-release-euphrates-5.19-stable-3927829dad6a930e67f2f4a47e752df5a8f6c64d Tue, 01 Jun 2021 10:15:14 el7.3-release-euphrates-5.19-stable-db974bded2c0cd1037288ca7aa9aef6f5e441222 Mon, 14 Jun 2021 09:47:29 el7.3-release-fraser-6.0-stable-a48467616ee7c603e3cee3174779cf24bea227cb Thu, 01 Jul 2021 11:52:24 el7.3-release-fraser-6.0-stable-0601c1f41bad35bf4afe05da443947d34927c6ae Thu, 05 Aug 2021 09:16:28 el7.3-release-fraser-6.0-stable-b9dbe4a0b0876cffa23d268d8ddc7f272fa4a166 Wed, 01 Sep 2021 07:44:46 el7.3-release-fraser-6.0-stable-f948d198de58b1b1e511431dbef0b34d20c82739 nutanix@pcvm$ sudo du -sh /home/apache/ www /console/el7.3-release-* 304M el7.3-release-euphrates-5.18.1.1-stable-4546d2908cb8495b316deb45de63b7f5e52541a1 541M el7.3-release-euphrates-5.18.1.2-stable-b1b096696c0c034570545912a00d39746e901f36 675M el7.3-release-euphrates-5.19.1.5-stable-0f9e00f661436fef1af18a094089744f34ccd8c0 1.1G el7.3-release-euphrates-5.19.1.6-stable-a1bbd4f054f86b9d445bf2153b93c5d8d920cff7 629M el7.3-release-euphrates-5.19.1-stable-6edca74801c9db2ff2003780084bb12aa6aa29f4 694M el7.3-release-euphrates-5.19.2-stable-8e7da6324cbe5c34564ec51615b10a7737c6782a 1.1G el7.3-release-euphrates-5.19-stable-5282152e02f3ede70f0957217a62dc436c60b454 329M el7.3-release-euphrates-5.20.1.1-stable-726ea8f7dc4bca156d3e3f63cd7982eecb70c8cb 2.1G el7.3-release-fraser-6.0.1.1-stable-d9f94c47b63e3eb4179dd7a6e16202d5856581a6
该问题已在以下版本中得到解决和修复:pc.2022.1、pc.2022.4、pc.2021.9.0.5 及更高版本。有关更多详细信息和解决方法,请参阅相应的解决方案部分。
删除旧的 sysstats 日志
如果您已经检查了所有常用位置但仍需要清理空间,您可以获得客户的许可来删除较旧的 sysstats 日志。在继续操作之前,请仔细检查是否存在未决的支持案例和待处理的 RCA,因为这些数据可能尚未收集。
nutanix@pcvm:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K /home/nutanix/data/logs/ecr 28K /home/nutanix/data/logs/work 5.5M /home/nutanix/data/logs/kafka 127M /home/nutanix/data/logs/cassandra 162M /home/nutanix/data/logs/data_providers 368M /home/nutanix/data/logs/ikat_access_logs 4.2G /home/nutanix/data/logs/sysstats 11G /home/nutanix/data/logs nutanix@pcvm:~$
场景 2
在 Prism Central 上启用 CMSP / 微服务后,Hyperkube 日志(kublet 日志)不会被清理。
如果已使用 LCM 将 Cluster Maintenance Utilities (CMU) 更新至版本 2.0.3,则所包含的 Scavenger 版本缺少清理与 CMSP 微服务相关的某些日志的功能。由于此问题,用户可能会发现 Prism Central 服务未启动或无法登录 PC UI。此问题将首先填满/home/nutanix/data/sys-storage/NFS_.../目录,然后 kubelet 日志将开始填满 /tmp 文件夹中的根分区。
nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 34G 0 34G 0% /dev tmpfs 34G 52K 34G 1% /dev/shm tmpfs 34G 3.4M 34G 1% /run tmpfs 34G 0 34G 0% /sys/fs/cgroup /dev/sdb2 9.8G 9.8G 0G 100% / /dev/sdb3 50G 33G 16G 68% /home tmpfs 6.7G 0 6.7G 0% /run/user/1000 /dev/sdf1 2.5T 21G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977956_4f2835fa_ab29_41c5_9110_483bff268ca0 /dev/sdg1 2.5T 13G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977958_10aa3f76_65a5_4fa6_8c88_7c70a4504f29 /dev/sde1 2.5T 20G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977954_df3a5816_b14b_4098_9b58_d90d670781a1 /dev/sdc1 2.5T 12G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977948_1bd3cd0d_de69_4a98_a18d_6049945e261b /dev/sdd 98G 88G 5.4G 100% /home/nutanix/data/kafka/disks/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c
我们可能会发现,当启用 CMSP 时, hyperkube.ntnx * 日志会生成但无法正确轮换。检查目录/home/nutanix/data/sys-storage/NFS.../kubelet/中是否充斥着这些日志。
nutanix@pcvm:~$ du -hsx /home/nutanix/data/sys-storage/NFS*/kubelet/ 97.0G /home/nutanix/data/sys-storage/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c/kubelet/ nutanix@pcvm:~$ ls -l /home/nutanix/data/sys-storage/NFS_4_0_7036_6578653c_8a38_4af8_9649_42e7939f3656/kubelet/kubelet* | wc -l 98
当按预期工作时,我们应该看到此 kubelet 文件夹中使用的空间少于 10G,并且 kubelet* 的文件数量将少于约 15 个
在/home/nutanix/data/sys-storage/NFS...目录中的空间耗尽后,我们还可能会看到类似的 kubelet 日志填满 /tmp 中的空间。
nutanix@pcvm:~$ sudo du -hsx /tmp 2.8G /tmp nutanix@pcvm:~/tmp$ sudo ls -larth /tmp/ total 2.8G ***truncated*** -rw-r--r--. 1 root root 109K Jun 23 05:49 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-054920.15123 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055012.17214 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055011.17214 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055038.18217 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055038.18217 -rw-r--r--. 1 root root 109K Jun 23 05:51 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055106.19499 -rw-r--r--. 1 root root 1.8G Jun 24 03:20 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055151.21218 -rw-r--r--. 1 root root 60K Jun 24 15:06 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230623-055155.21218 -rw-r--r--. 1 root root 5.8M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055152.21218 -rw-r--r--. 1 root root 990M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-032057.21218 -rw-r--r--. 1 root root 103K Jun 24 23:59 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-235940.170513 -rw-r--r--. 1 root root 3.3K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-000123.175052 -rw-r--r--. 1 root root 6.7K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-000120.175052 -rw-r--r--. 1 root root 2.8M Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-000120.175052 lrwxrwxrwx. 1 root root 67 Jun 25 04:01 kubelet.INFO -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 lrwxrwxrwx. 1 root root 70 Jun 25 04:01 kubelet.WARNING -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 lrwxrwxrwx. 1 root root 68 Jun 25 04:01 kubelet.ERROR -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 25K Jun 25 04:02 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 38K Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 -rw-r--r--. 1 root root 6.0M Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 -rw-------. 1 nutanix nutanix 0 Jun 26 08:37 .nstat.u1000 -rw-r-----. 1 nutanix nutanix 0 Jun 26 08:38 lcm_metrics_uploader_lock -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 lazan_pc_greenlet_stack_dump -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 uhura_greenlet_stack_dump drwxr-xr-x. 19 root root 4.0K Jun 26 08:44 .. drwx------. 2 nutanix nutanix 4.0K Jun 26 09:24 hsperfdata_nutanix drwxrwxrwt. 14 root root 4.0K Jun 26 09:35 .
场景 3
从 PC.2022.6 开始 - 创建并安装一个专用的 30 GB 磁盘用于 PC 升级。此 Vdisk 将用于从连续升级中下载和提取升级二进制文件。如果 Prism Central VM 升级磁盘利用率很高,则 Prism Central 升级将因升级磁盘空间不足而失败。
nutanix@NTNX-PCVM:$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 13G 0 13G 0% /dev tmpfs 13G 40K 13G 1% /dev/shm tmpfs 13G 2.6M 13G 1% /run tmpfs 13G 0 13G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.2G 2.5G 75% / /dev/sdb3 50G 14G 36G 28% /home /dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade /dev/sdc1 492G 147M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_271_960db4d2_45e7_4ef7_92bd_bdcd7e0b6aaf tmpfs 2.6G 0 2.6G 0% /run/user/1000
注意:如果在 Prism Central 上启用了多项服务,例如 msp、karbon、calm、flow 和objects,我们会看到 /home 使用率很高,因为每项服务都会生成多个日志和配置文件。Nutanix 工程师一直在努力改善 /home 的使用率。如果上述情况都不匹配,并且这会影响 Prism Central 升级,请联系Nutanix 支持团队通过修剪日志来帮助手动清理 /home。
场景 4
由于日志文件轮换问题,Adonis 日志目录使用率很高。此日志目录使用率不应超过 1G。对于 Scale-Out Prism Central 部署,请检查每个 Prism Central VM 上的文件使用情况:
nutanix@pcvm:~/data/logs$ sudo du -h /home/nutanix/adonis/logs 6.1G /home/nutanix/adonis/logs/access 19G /home/nutanix
场景 5
在某些情况下,catalina.out 可能会占用 Prism Central VM 上的大量空间。
通过 SSH 连接到 Prism Central 并检查 /home/nutanix/data/logs/catalina.out 是否占用了大量空间:
nutanix@PCVM:~$ allssh du -h /home/nutanix/data/logs/catalina.out
场景 6
对于 PC 2022.9 及更高版本,PCVM 中的 inode 使用率过高会导致根分区使用率过高
通过 SSH 连接到 prism central 并运行以下命令来验证 inode 使用情况:
nutanix@PCVM:~$ allssh df -i /
解决方案
如果检查报告 WARN 或 FAIL 状态,则表示磁盘使用率高于阈值,需要调查。通常,可以使用df -h查询空间利用率。以下输出显示了以下挂载点:
- /dev/sdb1 是根分区
- /dev/sdb3 是主分区
- /dev/sdc1是数据盘分区
nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 44K 7.9G 1% /dev/shm tmpfs 7.9G 6.1M 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.4G 2.3G 77% / /dev/sdb3 50G 8.5G 41G 18% /home /dev/sdc1 492G 150M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_267_5a298323_3c9f_4a6f_a265_10c4c1e6593e tmpfs 1.6G 0 1.6G 0% /run/user/1000 /dev/sde 98G 401M 93G 1% /home/nutanix/data/sys-storage/NFS_1_0_264_1f5cda9a_2b3f_4f49_b348_baeb0ae338b8 tmpfs 1.6G 0 1.6G 0% /run/user/0
数据磁盘使用情况( /dev/sdXX )或整体多磁盘使用情况:
验证特定 Prism Central 大小支持的虚拟机数量是否在限制范围内(请从支持门户查阅适用于您版本的 Prism Central 指南以了解限制)。联系Nutanix 支持。打开支持案例时,将以下命令的输出附加到案例中。
nutanix@pcvm$ allssh df -h nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check
Prism Central VM 主分区( /home ):
检查 NCC 输出以确定哪个 Prism Central VM 使用率较高,然后执行以下操作:
- 登录到 Prism Central VM。
- 使用cd命令将位置更改为 /home 分区。
- 使用以下命令按大小列出目录的内容:
nutanix@pcvm$ ls -al | sort -k5,5nr
检查输出中是否存在可以删除的大型未使用文件。
- 运行下面的du命令来列出每个文件和子目录的使用情况:
nutanix@pcvm$ sudo du -skxh * | sort -h
检查大型子目录的输出。您可以对每个有问题的子目录运行du命令,以进一步识别可以删除的大型未使用文件。
- 以下是/home下的一些常见子目录,其中可能存在大量未使用的文件:
- /home/nutanix/software_downloads/ - 删除除您当前正在升级的版本之外的任何旧版本。
- /home/nutanix/software_uncompressed/ - 删除除您当前正在升级的版本之外的任何旧版本。
- /home/nutanix/data/cores - 删除不再需要的旧堆栈跟踪。
- /home/nutanix/data/log_collector/ - 删除 NCC-logs-2018-07-20-111111111111111-1032057545.tar 格式的旧 NCC 日志。
- /home/nutanix/foundation/isos/ ——旧 ISO。
- /home/nutanix/foundation/tmp/ -可以删除的临时文件。
如果上述步骤不能解决问题,或者问题与本文前面介绍的情形之一相符,请按照下面概述的解决方案步骤进行操作。
Prism Central VM 根系统分区( / ) 或CMSP 分区( /dev/sdXX ):
考虑联系Nutanix 支持。收集以下命令的输出并将其附加到支持案例中:
nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 / 2>/dev/null nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check
场景 1
点击这里 显示此场景的详细信息:
解决方法是删除没有相应版本的注册集群的目录。
- 查找所有已注册 PE 的 AOS 版本。您可以从 Prism Central > 硬件 > 集群 > AOS 版本列中找到此信息。
- 列出/home/apache/ www /console/处的 PE apache 控制台目录
nutanix@pcvm$ sudo ls -lrth /home/apache/ www /console/el7.3-release-*
- 如果存在任何与注册的 PE 版本不对应的 PE apache 控制台目录,则可以安全地清理它们。
如果您需要进一步的清理帮助,请考虑联系Nutanix 支持。收集以下命令的输出并将其附加到支持案例中:
nutanix@pcvm$ ncli cluster info nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 /home/apache/ www 2>/dev/null nutanix@pcvm$ cat ~/config/upgrade.history nutanix@pcvm$ ls -lrth /home/apache/ www /console/el7.3-release-* nutanix@pcvm$ du -sh /home/apache/ www /console/el7.3-release-*
删除旧的 sysstats 日志
如果您已检查所有常用位置但仍需要清理空间,您可以获得客户的许可以删除较旧的 sysstats 日志。在继续操作之前,请仔细检查是否存在未决的支持案例和待处理的 RCA,因为这些数据可能尚未收集。
nutanix@PCVM:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K /home/nutanix/data/logs/ecr 28K /home/nutanix/data/logs/work 5.5M /home/nutanix/data/logs/kafka 127M /home/nutanix/data/logs/cassandra 162M /home/nutanix/data/logs/data_providers 368M /home/nutanix/data/logs/ikat_access_logs 4.2G /home/nutanix/data/logs/sysstats 11G /home/nutanix/data/logs nutanix@PCVM:~$
您可以使用以下命令删除超过特定日期的 gzip 压缩 sysstats 日志。在下面的示例中,您将删除所有超过 3 天(或 4320 分钟)的 PCVM 的 sysstats 日志。
nutanix@PCVM:~$ allssh "find ~/data/logs/sysstats -name '*.gz' -mmin +4320 -type f -exec rm '{}' +"
场景 2
如果您的 Prism Central 实例与此场景相符,请参阅KB-12707场景 #2并向Nutanix 支持部门提交案例,以获得有关从问题中恢复的帮助。
场景 3
点击这里 显示此场景的详细信息:
此分区 /home/nutanix/upgrade 用于保存升级相关文件。因此,此目录中的任何其他文件都可以删除。
df -h中列出的分区使用情况:
/dev/sde 30G 26G 4.1G 87%/home/nutanix/upgrade
要检查磁盘的内容:
allssh "ls -latr /home/nutanix/upgrade/"
要删除不需要的文件,请使用以下命令:
rm -f /home/nutanix/upgrade/<file_to_be_removed>
请注意:如果您确实意外删除了此文件夹中的 Prism Central 升级,请通过 Web 浏览器登录 Prism Central,转到 Prism Central 设置 --> 升级 Prism Central --> 单击软件升级旁边的“X”并重新下载包。
场景 4
Nutanix 已意识到此问题。此问题的修复将在未来的 PC 版本中提供。如需解决方法,请联系Nutanix 支持。
场景 5
如果您发现 catalina.out 日志文件占用了大量空间,请使用以下命令重新启动 PCVM 上的 prism 服务。
点击这里 显示此场景的详细信息:
nutanix@PCVM:~$ genesis stop prism; cluster start
在极少数情况下,prism 领导者翻转后,catalina.out 文件不会自动清除空间。要解决此问题,请在 prism 领导者翻转后手动将 catalina.out 日志文件清零:
nutanix@PCVM:~$ echo "" > ~/data/logs/catalina.out
对于单实例 PCVM,在 prism 服务停止时执行此更改,然后运行集群启动。
场景 6
按照KB-6082清除 inode 使用情况。
相关文章
- Nutanix Portal 中的原始文章: Nutanix KB 文章:5228
- Nutanix 登陆页面
