Solo AOS: cosa fare quando una partizione home o una directory Nutanix home su una VM controller (CVM) è piena
Solo AOS: cosa fare quando una partizione home o una directory Nutanix home su una VM controller (CVM) è piena
Solo AOS: cosa fare quando una partizione home o una directory Nutanix home su una VM controller (CVM) è piena
Descrizione
Note importanti:
- Non usare questa KB o lo script di pulizia se la partizione /home supera il limite su una Prism Central VM (PCVM) . Per il problema PCVM, fare riferimento a KB 5228 .
- Accedi ai CVM come utente Nutanix
- Non trattare Nutanix CVM (Controller VM) come una normale macchina Linux.
- Non usare rm -rf in nessuna circostanza, a meno che non sia specificato diversamente. Ciò causerà scenari di perdita di dati.
- Se si esegue LCM-2.6 o LCM-2.6.0.1, la raccolta dei registri LCM riempie la directory /home; fare riferimento alla KB 14671 per una soluzione alternativa.
- Se si riceve un avviso di utilizzo elevato della partizione /home su un cluster che esegue NCC 4.0.0, controllare anche KB 10530 .
- È possibile esaminare i cluster specifici interessati da questo avviso tramite le scoperte sul Portale di supporto con tecnologia Nutanix Insights qui
- In caso di dubbi, contattare l'assistenza Nutanix .
La partizione CVM /home o la directory /home/nutanix piene possono essere segnalate in due scenari:
- Il controllo di integrità NCC disk_usage_check segnala che l'utilizzo della partizione /home è superiore alla soglia (per impostazione predefinita, 75%).
- Il controllo pre-aggiornamento test_nutanix_partition_space verifica se tutti i nodi dispongono di almeno 5,6 GB di spazio nella directory /home/nutanix.
I seguenti messaggi di errore vengono generati in Prism dal controllo pre-aggiornamento test_nutanix_partition_space :
Nutanix riserva spazio sul livello SSD di ogni CVM per i suoi file e directory. Questi file e directory si trovano nella cartella /home che vedi quando accedi a una CVM. La dimensione della cartella /home è limitata a 40 GB in modo che la maggior parte dello spazio su SSD sia disponibile per i dati utente.
A causa delle dimensioni limitate della partizione /home , è possibile che lo spazio libero sia esaurito e che vengano attivati Prism Alerts, errori o avvisi di NCC Health Check o errori di Pre-Upgrade Check. Questi guardrail esistono per impedire che /home diventi completamente pieno, poiché ciò causa la mancata risposta di servizi di elaborazione dati come Stargate. I cluster in cui le partizioni /home di più CVM sono piene al 100% spesso causano tempi di inattività delle VM utente.
Quando si puliscono i binari inutilizzati e i vecchi log su una CVM, è importante notare che tutte le partizioni di dati utente su ogni unità associata a un dato nodo sono anche montate all'interno di /home. Ecco perché sconsigliamo vivamente di usare comandi non documentati come rm -rf /home , poiché questo cancellerà anche le directory di dati utente montate all'interno di questo percorso. Lo scopo di questo articolo è di guidarti nell'identificazione dei file che causano la mancanza di spazio libero nella CVM e nella rimozione solo di quelli che possono essere eliminati in modo sicuro.
Soluzione
Nota: le ultime versioni di AOS includono miglioramenti e correzioni di bug progettati per ottimizzare l'utilizzo dello spazio /home. Per evitare potenziali problemi in futuro, è fondamentale assicurarsi che il tuo AOS venga aggiornato regolarmente.
Indicazioni generali
- Controllo dell'utilizzo dello spazio in /home . Per accogliere un potenziale aggiornamento AOS, l'utilizzo dovrebbe essere inferiore al 70%. Utilizzare il comando df -h per verificare la quantità di spazio libero in /home . Nell'esempio seguente, l'utilizzo di CVM xxx12 /home è dell'81%.
=================== xxx11 ==================
/dev/md2 40G 22G 18G 55% /casa
=================== xxx12 ==================
/dev/md2 40G 32G 7.4G 81% /casa
=================== xxx13 ==================
/dev/md2 40G 24G 16G 61% /casa
Per ottenere un'ulteriore ripartizione dell'utilizzo in ordine decrescente, usa il comando du -h con il flag -d per ottenere il numero di livelli di directory richiesti. Ad esempio, di seguito -d 2 implica la ricerca in due livelli di directory da /home/nutanix/data , inoltre, aggiungendo head -n 15 verranno visualizzate le prime 15 directory che possono essere quindi confrontate con altre CVM per vedere da dove proviene l'utilizzo elevato:
=================== xx.xx.xx.11 ==================
17G /home/nutanix/dati
9.4G /home/nutanix/data/logs
4.6G /home/nutanix/data/installer/el7.*
4.6G /home/nutanix/data/installer
2.5G /home/nutanix/data/logs/sysstats
512M /home/nutanix/data/ncc/installer
=================== xx.xx.xx.12 ==================
18G /home/nutanix/dati
9.5G /home/nutanix/data/logs
4.6G /home/nutanix/data/installer/el7.*
4.6G /home/nutanix/data/installer
3.0G /home/nutanix/data/logs/sysstats
610M /home/nutanix/data/logbay/taskdata
.
.
- Le informazioni sulla partizione CVM /home possono essere raccolte utilizzando il comando logbay (NCC 4.0.0 e versioni successive, Nutanix KB 6691 ).
- Pulizia dei file non necessari nella directory /home .
Se hai casi aperti con un'analisi della causa principale in sospeso, verifica con il proprietario del caso se questi file di registro sono ancora necessari o possono essere eliminati.
Avvertenze: assicurarsi di tenere a portata di mano le note importanti menzionate nella parte superiore dell'articolo della Knowledge Base (KB) prima di applicare qualsiasi soluzione alternativa
Metodo 1: utilizzo di script approvato
Scarica ed esegui KB-1540_clean_v12.sh per pulire i file dalle directory approvate.
Nota: questo script NON è idoneo all'uso su Prism Central VM.
- Da qualsiasi CVM, eseguire i seguenti comandi per scaricare KB-1540_clean_v12.sh :
(MD5:967eb7f5de91bb684f730eb4bb45a16d)
nutanix@cvm:~/tmp$ wget -O KB-1540_clean_v12.sh http://download.nutanix.com/kbattachments/1540/KB-1540_clean_v12.sh
nutanix@cvm:~/tmp$ md5sum KB-1540_clean_v12.sh
967eb7f5de91bb684f730eb4bb45a16d KB-1540_clean_v12.s
- Distribuisci lo script su una CVM locale o su tutte le CVM del cluster:
Seleziona il pacchetto da distribuire
1: Distribuire lo strumento solo sul CVM locale
2: Distribuire lo strumento a tutti i CVM nel cluster
Selezione (Annulla="c"): <==== 1 o 2
- Eseguire lo script per cancellare i file dalle directory approvate.
- Aiuto
- Modalità interattiva
- Modalità non interattiva
Nota: se l'output dello script o la sua colorazione sembrano errati, prova a impostare la variabile d'ambiente prima di eseguire lo script oppure usa l'opzione "--no_color":
Modalità interattiva
Menù principale
|
Menu degli elementi del piano
|
Modalità non interattiva
Comandi
|
Se un elemento è elencato come "istruzione" nella colonna Operazione, è possibile visualizzare le istruzioni eseguendo quell'elemento.
Per esempio:
┌─────────────────────────────────────── ──────────────────┬───────────┬────────┐ │ Piani di pulizia: Articoli interessati │ Funzionamento │ Utilizzo │ ├─────────────────────────────────────── ──────────────────┼───────────┼────────┤ │ 5: Pacchetto di registri (logbay) │rimuovi │ 2,25G│ │10: Scaricato programma di installazione │istruzioni│ 824.00M│ │59: Possibili file creati manualmente │istruzioni│ 3.69G│ ├─────────────────────────────────────── ──────────────────┴───────────┼────────┤ │ Totale │ 6,74G│ ╞═══════════════════════════════════════ ══════════════════════════════╧════════╡ │CVM xxxx│ │ /uso domestico = 30,99 G (80%) >> si consiglia la pulizia │ └─────────────────────────────────────── ───────────────────────────────────────┘
Gli elementi 10 e 59 sono elencati come "istruzioni". Per vedere le istruzioni per l'elemento 10, eseguilo immettendo "10" nel menu principale e immettendo "R" nella schermata successiva. Esempio di output di seguito:
┌─────────────────────────────────────── ──────────────────┬───────────┬────────┐ │ Piano di pulizia 10 │ Funzionamento │ Utilizzo │ ├─────────────────────────────────────── ──────────────────┼───────────┼────────┤ │10: Scaricato programma di installazione │istruzioni│ 824.00M│ └─ ...� Menù del piano 10 ( Quit, Back, Help, Rescan, Operation, List, Dryrun, Run, Export): R Esegui operazione per il piano 10: "instruction" È richiesta un'operazione manuale per il piano 10 -- Istruzione -- Questi programmi di installazione scaricati possono essere eliminati da "Upgrade Software" su Prism. Trova una sezione con "/home/nutanix/software_downloads/" su KB-1540 (http://portal.nutanix.com/kb/1540) I file di installazione più vecchi non potevano essere elencati su Prism o tramite ncli. Contatta il supporto Nutanix ogni volta che hai bisogno di assistenza. ┌─────────────────────────────────────── ──────────────────┬───────────┬────────┐ │ Piano di pulizia 10 │ Funzionamento │ Utilizzo │ ├─────────────────────────────────────── ──────────────────┼───────────┼────────┤ │10: Scaricato programma di installazione │istruzioni│ 824.00M│ └─────────────────────────────────────── ──────────────────┴───────────┴────────┘
Ripetere la stessa operazione per l'elemento 59 per visualizzare le istruzioni per l'elemento 59.
- Pulizia dopo la risoluzione dei problemi
I file di script scaricati, i log e i file esportati dovrebbero essere rimossi manualmente dopo ogni risoluzione dei problemi. La dimensione totale di questi file dovrebbe essere piccola e non influenzerà il file system di CVM. Puoi rimuovere i seguenti file una volta che lo script diventa inutile.
<aammgg-hhmmss> è la data e l'ora di creazione.- Nel CVM in cui è distribuito lo script KB ( /home/nutanix/tmp/ ):
KB-1540_clean.sh - file scaricato dalla KB
deploytool_yyyymmdd-hhmmss.log - registro dello script di distribuzione (non necessario dopo la distribuzione)
nutanix_home_clean.py - script principale della KB
nutanix_home_clean_config.py - file di configurazione per lo script principale - Nel resto dei CVM nel cluster, se distribuito a tutti i CVM nel passaggio 2:
nutanix_home_clean.py - script principale della KB
nutanix_home_clean_config.py - file di configurazione per lo script principale - Ogni CVM in cui viene eseguito nutanix_home_clean.py:
KB-1540_v12_yyyymmdd_hhmmss_nutanix_home_clean.log - Registro dello script KB
KB-1540_v12_yyyymmdd_hhmmss_export_*.csv - file esportati (se esportati)
Il seguente comando può rimuovere tutto quanto sopra:
nutanix@cvm:~/tmp$ allssh 'cd ~/tmp/; /usr/bin/rm KB-1540* deploytool_*.log nutanix_home_clean.py nutanix_home_clean_config.py'
- Nel CVM in cui è distribuito lo script KB ( /home/nutanix/tmp/ ):
Metodo 2: Metodo manuale
LEGGERE PER FAVORE : Solo i file nelle directory indicate di seguito sono sicuri da eliminare. Prendere nota delle specifiche linee guida per la rimozione dei file da ogni directory. Non usare altri comandi o script per rimuovere i file. Non usare rm -rf in nessuna circostanza.
- Rimozione di vecchi log e file core. Elimina solo i file all'interno delle directory seguenti e non le directory stesse .
- /home/nutanix/dati/core/
- /home/nutanix/data/binary_logs/
- /home/nutanix/data/ncc/installer/
- /home/nutanix/data/collettore_di_registri/
- /home/nutanix/prism/webapps/console/download/NCC-logs-*
Per eliminare i file all'interno di ciascuna di queste directory, utilizzare la seguente sintassi:
- Rimozione di vecchi ISO e binari software. Eliminare solo i file all'interno delle seguenti directory e non le directory stesse .
Controllare la versione AOS attualmente in esecuzione in "Versione cluster":
Nome del cluster: Axxxxa
Versione del cluster: 5.10.2
- /home/nutanix/software_uncompressed/ - La cartella software_uncompressed è in uso solo quando è in esecuzione il pre-aggiornamento e dovrebbe essere rimossa dopo un aggiornamento riuscito. Se vedi un cluster in esecuzione che al momento non è in fase di aggiornamento, è sicuro rimuovere tutto ciò che si trova nella directory software_uncompressed. Elimina tutte le vecchie versioni diverse dalla versione a cui stai eseguendo l'aggiornamento.
- /home/nutanix/foundation/isos/ - Vecchie ISO di hypervisor o Phoenix.
- /home/nutanix/foundation/tmp/ - File temporanei che possono essere eliminati.
Per eliminare i file all'interno di ciascuna di queste directory, utilizzare la seguente sintassi:nutanix@cvm:~$ /usr/bin/rm /home/nutanix/foundation/isos/* nutanix@cvm:~$ /usr/bin/rm /home/nutanix/foundation/tmp/*
- /home/nutanix/download_software/
Se i file nella directory software_downloads non sono necessari per alcun aggiornamento pianificato, rimuovili da Prism Web Console > Impostazioni > Aggiorna software . Controlla anche le schede File Server , Hypervisor , NCC e Foundation per individuare i download che potrebbero non essere necessari. L'esempio seguente illustra due versioni di AOS disponibili per l'aggiornamento, ciascuna delle quali consuma circa 5 GB. Fai clic sulla "X" per eliminare i file.
Se è selezionata, deseleziona l'opzione "Abilita download automatico". Se non monitorato, il cluster scaricherà più versioni, consumando spazio nella directory home inutilmente.
- Ricontrolla l'utilizzo dello spazio in /home utilizzando df -h (vedi le istruzioni generali di questo articolo) per confermare che sia ora inferiore al 70%.
Nota: se non riesci a eliminare i file con il seguente errore e lo spazio non è stato richiesto, contatta il supporto Nutanix per ricevere assistenza.
==> File di sistema rilevati:
/home/nutanix/data/software_non_compresso/xxx
Operazione non consentita. L'eliminazione dei file di sistema causerà instabilità del cluster e potenziale perdita di dati.
Note importanti per i cluster NC2:
È stato osservato in alcuni casi di cluster NC2 che /tmp si avvicina al pieno. Puoi seguire i passaggi sottostanti per pulire la directory ~/tmp.
- Accedere tramite SSH alla CVM interessata e verificare l'utilizzo del disco eseguendo il comando "df -h":
nutanix@CVM:~$ df -h /tmp Dimensione del file system utilizzata Disponibile Utilizzo% Montato su /dev/loop0 240M 236M 0 100% /tmp
- Nell'output soprastante, possiamo vedere che /tmp mostra il 100%. Cambiamo la directory in ~/tmp e ordiniamo l'elenco usando sudo du -aSxh /tmp/* | sort -h .
Italiano: 4.0K /tmp/hsperfdata_nutanix 12K /tmp/lost+found 23K /tmp/rc_nutanix_start.1731.log 39K /tmp/rc_nutanix_start.1734.log 78M /tmp/infra-gateway.ntnx-i-02a754840c30b5e66-a-cvm.root.log.ERROR.20230123-201357.3575 78M /tmp/infra-gateway.ntnx-i-02a754840c30b5e66-a-cvm.root.log.INFO.20230123-200932.3575 78M /tmp/infra-gateway.ntnx-i-02a754840c30b5e66-a-cvm.root.log.WARNING.20230123-201357.3575
- Dall'output ricevuto sopra, elimina manualmente i file più grandi di 12K. Ad esempio, vedi sotto i file eliminati dall'output sopra.
nutanix@CVM:~/tmp$ sudo /usr/bin/rm /tmp/infra-gateway.ntnx-i-02a754840c30b5e66-a-cvm.root.log.WARNING.20230123-201357.3575 nutanix@CVM:~/tmp$ sudo /usr/bin/rm /tmp/infra-gateway.ntnx-i-02a754840c30b5e66-a-cvm.root.log.INFO.20230123-200932.3575 nutanix@CVM:~/tmp$ sudo /usr/bin/rm /tmp/.ntnx-i-02a754840c30b5e66-a-cvm.root.log.ERROR.20230123-201357.3575 nutanix@CVM:~/tmp$ sudo /usr/bin/rm /tmp/rc_nutanix_start.1734.log nutanix@CVM:~/tmp$ sudo /usr/bin/rm /tmp/rc_nutanix_start.1731.log
- Dopo l'eliminazione, puoi controllare lo spazio libero disponibile utilizzando df -h :
nutanix@CVM:~/tmp$ df -h /tmp Dimensione del file system utilizzata Disponibile Utilizzo% Montato su /dev/loop0 240M 14M 210M 6% /tmp
- Come puoi vedere, lo spazio libero disponibile ora mostra il 6%. Puoi controllare ulteriormente con:
nutanix@CVM:~$ ncc controlli_integrità controlli_hardware controlli_disco controllo_utilizzo_disco --cvm_list=
Onutanix@CVM:~$ ncc controlli_della_salute esegui_tutto
Contattare il supporto Nutanix per assistenza se l'utilizzo di /home è ancora al di sopra della soglia dopo aver ripulito i file dalle directory approvate. In nessun caso si dovrebbero rimuovere file da altre directory oltre a quelle consigliate da questo articolo, poiché potrebbero essere fondamentali per le prestazioni di CVM o potrebbero contenere dati utente.