Lenovo beste praktijken in reactie op de Intel® oncorrigeerbare geheugenfoutafhandeling op Gen 1, Gen 2 of "H" SKU's van Gen 3 Xeon® Scalable-processors

Lenovo beste praktijken in reactie op de Intel® oncorrigeerbare geheugenfoutafhandeling op Gen 1, Gen 2 of "H" SKU's van Gen 3 Xeon® Scalable-processors

Lenovo beste praktijken in reactie op de Intel® oncorrigeerbare geheugenfoutafhandeling op Gen 1, Gen 2 of "H" SKU's van Gen 3 Xeon® Scalable-processors

Dit artikel is een machinevertaling. Klik hier om de originele Engelse versie te bekijken.

Beschrijving

Lenovo is al 7 jaar #1 in betrouwbaarheid en wil zijn klanten informeren over de reducties die inherent zijn aan alle industriële systemen die gebruikmaken van bepaalde generaties van Intel® processors, die generatiewijs de foutcontrole- en correctiecapaciteiten hebben verminderd die beschikbaar zijn voor de OEM-systeemleveranciers. Een combinatie van DDR-geheugenfouten en architectonische wijzigingen in de logica voor het afhandelen van corrigerende geheugenfouten, op Gen 1 Xeon® Scalable processors (codenamed "Skylake"), Gen 2 Xeon® Scalable processors (codenamed "Cascade Lake") en Gen 3 Xeon® Scalable processors (codenamed "Cooper Lake-6") kan resulteren in een hogere frequentie van runtime oncorrigeerbare geheugenfouten (UCE) in vergelijking met eerdere generaties hardware. Dit is te wijten aan de geïmplementeerde wijzigingen in de Single Device Data Correction (SDDC). SDDC is een fundamentele Intel RAS (Betrouwbaarheid, Beschikbaarheid, Onderhoudbaarheid) functie die beschikbaar is op alle platforms. Als gevolg van deze architectonische wijzigingen en geheugen DIMM-fouten, is er een verschil in welke fouten worden gecorrigeerd tussen de vorige generatie processors en de Xeon® Scalable processorfamilie generatie. Voor meer informatie van Intel® zie Hoe verbeter ik het geheugenbeheer met 1e, 2e of 3e generatie Intel® Xeon® Scalable Processors. Dit artikel richt zich op belangrijke strategieën om DDR oncorrigeerbare fouten te mitigeren die soms leiden tot applicatie beëindiging of servercrashes.

Het probleem kan worden geïdentificeerd door oncorrigeerbare geheugenfouten of machinecheckfouten te observeren die worden gerapporteerd door Lenovo ThinkSystem of ThinkAgile-product:

XCC gebeurtenislog:

FQXSFMA0002M : Een oncorrigeerbare geheugenfout is gedetecteerd op DIMM [arg1] op adres [arg2]. [arg3] FQXSFPU0062F : Systeem oncorrigeerbare fout opgetreden in Processor [arg1] Core [arg2] MC bank [arg3] met MC Status [arg4], MC Adres [arg5], en MC Misc [arg6]. FQXSFPU0027N : Systeem oncorrigeerbare herstelbare fout is opgetreden op Processor [arg1] Core [arg2] MC bank [arg3] met MC Status [arg4], MC Adres [arg5], en MC Misc [arg6]. 

(waar XCC = Lenovo XClarity Controller)

Elke regel hieronder zal uitbreiden met aanvullende informatie door op de pijl aan de rechterkant van de titel te klikken
Drop down arrow

Toepasbare Systemen

Het systeem kan een van de volgende Lenovo servers zijn:

Best Practices

ThinkSystem firmware ondersteunt RAS-functies die worden aangeboden door Intel® Scalable processor, wat de frequentie van DDR oncorrigeerbare fouten aanzienlijk kan verminderen. Daarom moeten systeembeheerders en operators profiteren van de RAS-functies die worden ondersteund door Gen1/Gen2/Gen3 Intel® Xeon® Scalable processors en plannen voor routinematige on-target geheugentests die beschikbaar zijn binnen LXPM. De best practices die in dit artikel zijn uiteengezet, moeten van toepassing zijn op toekomstige CPU-generaties die geheugen ondersteunen dat verder gaat dan de DDR4-generatie die wordt aangeboden met Gen 3 Xeon® Scalable processors (codenamed "Cooper Lake-6").

Onderhoud de code actualiteit

Update productie ThinkSystem servers naar de firmwarestack die is uitgebracht in het eerste kwartaal van 2021 of hoger, wat ervoor zorgt dat alle bekende Intel en Lenovo firmwarefixes zijn toegepast. Dit kan worden gedaan door naar de Lenovo Support Portal URL te navigeren: https://support.lenovo.com en door de juiste Productgroep, type Systeem, Productnaam, Product machine type en Besturingssysteem te selecteren.

Plan voor on-target geheugenscreening

Plan om LXPM Geavanceerde Geheugentests minstens elke 6 maanden uit te voeren en vóór de implementatie van een nieuw systeem of systeemonderhoud, zie URL: HT511056 - LXPM Geavanceerde Geheugentest vermindert DIMM-fouten. De volgende stappen moeten worden gevolgd bij het overwegen van deze optie.

amt

  1. Houd de systeemfirmware (UEFI & BMC/XCC) up-to-date: voor de beste resultaten, zorg ervoor dat het doelsysteem de nieuwste firmware of de firmwarestack die na het eerste kwartaal van 2021 is uitgebracht, draait.
    • Controleer Systeeminformatie tijdens POST of selecteer Systeemoverzicht om de firmware-informatie van het systeem te controleren:
      post

      sys_info
       
  2. Bij gebruik van de Command Line Interface (CLI) methode, verwijs naar de onderstaande commando's:

    Om de AMT in te schakelen, voer uit:

    OneCli.exe config set Memory.MemoryTest Enable --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0xF0000 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    

    Om de AMT uit te schakelen, voer uit:

    OneCli.exe config set Memory.MemoryTest Automatic --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    
  3. Bij gebruik van de Grafische Gebruikersinterface (GUI) zet de server aan en druk op F1 om het ThinkSystem UEFI-configuratiemenu, XClarity Provisioning Manager, binnen te gaan.
    F1

    sys_info
     
  4. Selecteer de optie Diagnostiek uit het menu aan de linkerkant.
    diags
     
  5. Selecteer Voer Diagnostiek uit op het Diagnostiekenscherm.
    run_diags
     
  6. Selecteer Geheugentest op het Dashboard.
    sele_mem
     
  7. Selecteer Geavanceerde Geheugentest uit het menu Geheugentest.
    amt

    amt_run_diags
     
  8. Na het selecteren van de Geavanceerde Geheugentest (AMT) zal het systeem opnieuw opstarten en de geheugentest zal worden uitgevoerd tijdens UEFI POST. Deze test is zeer vergelijkbaar met de test op productieniveau en kan niet worden uitgeschakeld totdat een volledige testcyclus is voltooid. Het opnieuw opstarten van het systeem tijdens de testoperatie zal de geheugentest opnieuw starten vanaf het begin, tenzij de CMOS-batterij wordt verwijderd. Het systeem keert terug naar de Diagnostiekpagina en biedt een interface om systeemlogs op te slaan wanneer het in Grafische Systeemconfiguratie is.
    amt_in_progress
     
  9. De tijd die nodig is voor de test om te voltooien varieert per systeem. Nadat de test is voltooid, keert het systeem terug naar de pagina Geheugentest in LXPM met een prompt om een USB schijf in het systeem in te voegen om het logbestand op te slaan. Plaats een USB schijf in het systeem en klik op Opnieuw proberen om door te gaan. 
     
  10. Als een gebruiker de optie om het testlog op te slaan wil omzeilen, moet F1 Systeemconfiguratie worden geconfigureerd om in Tekstmodus te draaien.

    Redfish-commando om AMT in te schakelen/uit te schakelen

    {
        "Attributes": {
            "Memory_MemoryTest": "Enabled",  
            "Memory_AdvMemTestOptions": 983040 
        }
    }
    

    Opmerking: Voor meer details, raadpleeg Geavanceerde Geheugentest op XeonBased ThinkSystem Servers.

Schakel Machine Check Recovery (MCA) en Local Machine Check (LMCE) herstel in

MCA-herstel stelt het besturingssysteem in staat om te beslissen of de fout door het besturingssysteem kan worden hersteld zonder het systeem stil te leggen. Voor meer informatie over deze RAS-functie, zie de detailssectie. Voor meer gedetailleerde informatie over MCA-herstel, zie de sectie Aanvullende Informatie.

De volgende stappen moeten worden gevolgd bij het overwegen van deze optie.

  1. Bij gebruik van de CLI-methode selecteer “AdvancedRAS.MachineCheckRecovery=Enable”. Deze functie is standaard ingeschakeld in de UEFI-configuratie.
  2. Bij gebruik van de GUI-methode:
    1. Zet de server aan.
    2. Druk op F1 om Systeemconfiguratie, LXPM binnen te gaan.
      F1
       
    3. Kies in het navigatiemenu aan de linkerkant SysteeminstellingenHerstel en RAS zoals hieronder weergegeven.
      rec_ras
       
    4. Selecteer Geavanceerde RAS.
      adv_ras
       
    5. Schakel Machine Check Recovery in.
      enable_ras
       

Opmerking: MCA-herstel en Local Machine Check (LMCE) herstel zijn afhankelijk van de ondersteuning door het besturingssysteem, dus raadpleeg uw OS-leverancier voor MCA- en LMCE-mogelijkheden, aangezien elke besturingssysteemleverancier RAS-functies aanneemt met hun eigen releasecycli. Lenovo gebaseerde platformfirmware schakelt LMCE-gebaseerd herstel standaard in, maar deze instelling is niet zichtbaar voor de gebruikersruimte in de UEFI-configuratie. De voordelen van LMCE ten opzichte van MCE worden besproken in het volgende document: Omgaan met Local Machine Check-excepties in Linux.

Windows: Voor een gedetailleerde beschrijving van hoe Windows RAS-functies gebruikt, raadpleeg de Windows Hardware Error Architecture (WHEA) ontwerpgids. Raadpleeg de sectie “Aanvullende Informatie” voor de lijst van ondersteunde RAS-functies per besturingssysteem.

VMware: Machine Check-herstel wordt ondersteund door de kernel in ESXi 5-release en hoger. Raadpleeg de sectie “Aanvullende Informatie” voor de lijst van ondersteunde RAS-functies per besturingssysteem.

Bovendien moet de gebruiker profiteren van Local Machine Check (LMCE) gebaseerd herstel, dat standaard is ingeschakeld in de ESXi 7.0-versie, zie Lenovo ThinkSystem Servers met Intel® Optane™ DC Persistent Memory Module-ondersteuning

Voor de Lenovo ThinkSystem SR850P en SR850, is het vanwege een bekende hardwarebeperking vereist om de “useLMCE” kernelbootvlag in te schakelen om lokaal machinecheckfoutherstel te ondersteunen met ESXi 6.7 U2 en hogere versies.

  • Om lokaal MCE-herstel in te schakelen op een ESXi 6.7 U2-systeem:
    Voer in de ESXi-console deze twee esxcli-commando's uit om de kernelbootoptie in te stellen, gebruik LMCE op WAAR, en start het systeem opnieuw op om de wijzigingen van kracht te laten worden.
     esxcli system settings kernel set -s useLMCE -v TRUE
     /sbin/reboot
    
    Na een herstart, verifieer of de instelling van kracht is door dit commando uit te voeren:
     esxcli system settings kernel list -o “useLMCE

Linux: Raadpleeg de sectie “Aanvullende Informatie” voor de lijst van ondersteunde RAS-functies per besturingssysteem. Kernelondersteuningslijst voor MCA-herstel door grote Linux-leveranciers:

pic5

Bron: Engineering Practice to Reduce Server Crash Rate from DDR Uncorrectable Errors (UCE) in Hyperscale Cloud Data Center, zie Engineering Practice to Reduce Server Crash

Houd Patrol Scrub Ingeschakeld

Om een ophoping van zachte fouten te voorkomen die kunnen veranderen in oncorrigeerbare fouten (UCE), heeft de Intel chipset een ingebouwde geheugenscrubbing-engine. Het leest gegevens van elke DDR-geheugenlocatie en corrigeert bitfouten (indien aanwezig) met een foutcorrigerende code (ECC), en schrijft vervolgens de gecorrigeerde gegevens terug naar dezelfde locatie. Patrol scrubbing is ingesteld op een interval van 24 uur waarbij elk adres gedurende deze periode wordt gecontroleerd.

  • Bij gebruik van de CLI-methode selecteer “Memory.PatrolScrub=Enable”. Deze functie is standaard ingeschakeld in de UEFI-configuratie.

Schakel Cold Boot Fast uit

Forceer geheugentraining bij elke herstart door Cold Boot Fast uit te schakelen; dit zal de opstarttijd van het systeem tijdens POST verhogen. Het doel van Cold Boot Fast is om geheugentraining over te slaan als er de afgelopen 90 dagen geen configuratiewijziging is gedetecteerd, wat de opstarttijd van het systeem verbetert. Het uitschakelen van Cold Boot Fast maakt retraining van de geheugeninterface mogelijk, ter compensatie van significante veranderingen in omgevingsomstandigheden.

  • Bij gebruik van de CLI-methode selecteer “Memory.ColdBootFast=Disable”.
  • Deze functie is standaard ingeschakeld in de UEFI-configuratie.

Profiteer van Post Package Repair

Dit is een door de industrie geleide functie gedefinieerd door JEDEC om Boot Time Post Package Repair (PPR) mogelijk te maken om een rij binnen een DRAM te vervangen die als defect is vastgesteld. Het doel van de functie is om DIMM-vervangingen in het veld te verminderen vanwege de aanwezigheid van defecte cellen. Tijdens de runtime kan een DIMM die corrigeerbare fouten ondervindt, worden ingepland voor een PPR tijdens een volgende opstartcyclus. De DRAM die de fout ondervindt, binnen de DIMM, zal de rij intern vervangen door een reserve rij, binnen dezelfde DRAM. Dit PPR-correctieve fusieproces is permanent.

Bijvoorbeeld, als uw systeem een runtime PFA heeft geclaimd, zal UEFI bij de volgende herstartpoging een reparatie proberen. Dit zal worden aangegeven door een “Self-Heal” bericht in het gebeurtenislog, en na voltooiing zal de PFA worden gedeactiveerd.

  • Deze functie is standaard ingeschakeld in de UEFI-configuratie .

Stel de systeemwerkmodus in op maximale prestaties

In sommige situaties is waargenomen dat het uitschakelen van energiebeheerbeleid in de systeem UEFI en vSphere-client heeft geleid tot het oplossen van intermitterende 'Onherstelbare Busfouten' of systeemherstarts en geheugenfouten.

  • Bij gebruik van de CLI-methode selecteer “OperatingModes.ChooseOperatingMode=Maximale Prestaties".
  • Om Maximale Prestaties in te schakelen met de CLI-methode, voer uit:
    OneCli.exe config set OperatingModes.ChooseOperatingMode "Maximale Prestaties" --imm xcc_user_id:xcc_password@xcc_external_ip

Voor referentie zie Systeemafstemming voor VMware op x86-servers en ThinkSystem, zie Systeemafstemming voor VMware op x86-servers en ThinkSystem
Voor referentie zie Aanbevolen UEFI-instellingen - Lenovo ThinkAgile HX-systemen, zie URL: Aanbevolen UEFI-instellingen

Schakel Adresbereik Spiegeling / Gedeeltelijke Geheugen Spiegeling in

Adresbereik Spiegeling is een RAS-functie die beschikbaar is op de Intel Xeon Scalable Family-platforms, waarmee gedetailleerde controle mogelijk is over hoeveel geheugen wordt toegewezen voor redundantie, zie details sectie voor aanvullende informatie. De volgende stappen moeten worden gevolgd bij het overwegen van deze optie. Voor meer gedetailleerde informatie over Adresbereik Spiegeling zie de sectie Aanvullende Informatie.

  1. Bij gebruik van de CLI-methode selecteer “Memory.MirrorMode=Gedeeltelijk”, “Memory.Mirrorbelow4GB=Inschakelen”
  2. Wanneer Adresbereik Spiegeling is ingeschakeld, wordt de geheugeninhoud gedupliceerd op de externe DIMM in de partitie. Dit betekent dat niet al het systeemgeheugen beschikbaar zal zijn voor het besturingssysteem. Bijvoorbeeld, met gedeeltelijke spiegeling ingeschakeld, zal UEFI 36GB van een vast bedrag aan geheugen toewijzen aan de spiegel per fysieke processor.
  3. Volg de onderstaande stappen om de Gedeeltelijke Spiegelmodus voor geheugenredundantie in te schakelen:
    1. Schakel de server in.
    2. Druk op de F1 toets om LXPM binnen te gaan:
      F1
       
    3. Selecteer de UEFI Setup in het linkernavigatiemenu.
      uefi_setup
       
    4. Selecteer Systeeminstellingen.
      sys_setting
       
    5. Selecteer Geheugen in het middenpaneel.
      memory
       
    6. Scroll naar beneden en selecteer Spiegelconfiguratie.
      mem_config
       
    7. Stel Spiegelmodus in op Gedeeltelijk en schakel Spiegel onder 4 GB in om ervoor te zorgen dat geheugen spiegeling lage adresbereiken omvat. 
      enable_mirror_mem_below_4gb
       

      Opmerking: Spiegel onder 4GB wordt gedeeld met MM-configuratie Basis waarvan de standaardinstelling 3 GB is. In dit voorbeeld hebben we Spiegel onder 4 GB ingeschakeld.

    8. Sla de configuratie op en verlaat het UEFI-configuratiemenu.
  4. De geheugeninformatie van de geheugen spiegeling wordt weergegeven op het systeem opstartscherm. De bruikbare geheugencapaciteit wordt verminderd volgens de configuratie die in UEFI is ingesteld. De onderstaande afbeelding toont de geheugen onafhankelijke modus aan de linkerkant en de Adresbereik Spiegeling modus aan de rechterkant waar 1536G geheugen is verminderd tot een bruikbare capaciteit van 1461GB = 1536(Totaal)-36(CPU1)-36(CPU2)-3(MM Config).
    pic7
     
  5. Opmerking:
  6. Na het instellen van Gedeeltelijke Geheugen Spiegeling in UEFI kan men “esxcli hardware memory get” gebruiken om te verifiëren dat Betrouwbaar Geheugen wordt gebruikt en meer dan ‘0’ Bytes is.
    Zie het onderstaande voorbeeld:
    Voor het inschakelen van adresbereik gedeeltelijke geheugen spiegeling: [root@h2:~] esxcli hardware memory get Fysiek Geheugen: 549657530368 Bytes Betrouwbaar Geheugen: 0 Bytes NUMA Node Aantal: 2
    Na het inschakelen van adresbereik gedeeltelijke geheugen spiegeling: [root@h2:~] esxcli hardware memory get Fysiek Geheugen: 480938061824 Bytes Betrouwbaar Geheugen: 68619579392 Bytes NUMA Node Aantal: 2

Aanvullende Informatie

Ondersteunde RAS-functies per Besturingssysteem*

Een set tabellen hieronder toont wanneer besturingssysteemleveranciers individuele RAS-functies voor het eerst hebben aangenomen die kunnen worden gebruikt om de systeemstabiliteit en veerkracht tegen hardwarefouten te verbeteren.

* De tabellen hieronder vermelden alle grote besturingssysteemleveranciers.

Ondersteunde RAS-functies op Windows Server WS2016 WS2019 WS2022 Alle Toekomstige Versies
MCA2.0 Herstel-Executiepunt X X X X
MCA2.0 Herstel-Geen Executiepunt X X X X
Lokale Machine (LMCE) gebaseerde Herstel-Executie   X X X
Adresbereik/Gedeeltelijke Spiegeling     X X

 

Ondersteunde RAS-functies op VMware ESXi 5 GA 5.5 6 GA 6.5-6.7 (alle) 7.0 (alle) Alle Toekomstige Versies
MCA2.0 Herstel-Executiepunt X X X X X X
MCA2.0 Herstel-Geen Executiepunt X X X X X X
Lokale Machine (LMCE) gebaseerde Herstel-Executie       X X X
Adresbereik/Gedeeltelijke Spiegeling   X X X X X

 

Ondersteunde RAS-functies op RHEL 7.2 7.3 7.4 (alle) 8.x (alle) 9.x (alle) Alle Toekomstige Versies
MCA2.0 Herstel-Executiepunt X X X X X X
MCA2.0 Herstel-Geen Executiepunt X X X X X X
Lokale Machine (LMCE) gebaseerde Herstel-Executie   X X X X X
Adresbereik/Gedeeltelijke Spiegeling     X X X X

 

Ondersteunde RAS-functies op SUSE 11.04 12 GA 12 SP3 12 SP4 (alle) 15 (alle) Alle Toekomstige Versies
MCA2.0 Herstel-Executiepunt X X X X X X
MCA2.0 Herstel-Geen Executiepunt X X X X X X
Lokale Machine (LMCE) gebaseerde Herstel-Executie     X X X X
Adresbereik/Gedeeltelijke Spiegeling       X X X

 

Ondersteunde RAS-functies op Ubuntu 14.04 16.04 18.04 (alle) 20.04 (alle) 21.04 (alle) Alle Toekomstige Versies
MCA2.0 Herstel-Executiepunt X X X X X X
MCA2.0 Herstel-Geen Executiepunt X X X X X X
Lokale Machine (LMCE) gebaseerde Herstel-Executie   X X X X X
Adresbereik/Gedeeltelijke Spiegeling   X X X X X

MCA Herstel

De nieuwe Intel Xeon Scalable Family-processors ondersteunen herstel van bepaalde geheugenfouten op basis van het Machine Check Architecture (MCA) Herstelmechanisme. Dit vereist dat het besturingssysteem een geheugenpagina als “vervuild” verklaart, de processen die aan de pagina zijn gekoppeld beëindigt en voorkomt dat de pagina in de toekomst wordt gebruikt. Het MCA-mechanisme wordt gebruikt om machinefoutinformatie te detecteren, signaleren en registreren. Sommige van deze fouten zijn corrigeerbaar, terwijl andere niet-corrigeerbaar zijn. Het MCA-mechanisme is bedoeld om CPU-ontwerpers en CPU-debuggers te helpen bij het diagnosticeren, isoleren en begrijpen van processorstoringen. Het is ook bedoeld om systeembeheerders te helpen bij het detecteren van tijdelijke en leeftijdsgerelateerde storingen die zich voordoen tijdens langdurige werking van de server. De MCA Herstelfunctie maakt deel uit van de fouttolerante mogelijkheden van servers die zijn gebaseerd op de Intel Xeon Scalable Family-processors, zoals de ThinkSystem serverportfolio. Deze mogelijkheden stellen systemen in staat om door te blijven draaien wanneer een niet-corrigeerbare fout in het systeem wordt gedetecteerd. Zonder deze mogelijkheden zou het systeem vastlopen en mogelijk hardwarevervanging of een systeemherstart vereisen.

MCA Herstel stelt het besturingssysteem in staat om te beslissen of de fout door het besturingssysteem kan worden hersteld zonder het systeem offline te halen. Als aan de volgende voorwaarden is voldaan:

  • Geheugen UCE is een niet-fatale fout
  • Het geheugenfoutadres bevindt zich niet in de kernelruimte
  • De getroffen applicatie kan door het host-besturingssysteem worden beëindigd.

De onderstaande afbeelding toont de foutafhandelingsstroom van het systeem met een Linux-besturingssysteem.

foutafhandelingsstroom van het systeem met een Linux-besturingssysteem

Bron: zie URL LP0778 - Demonstrating the Memory RAS Features of Lenovo ThinkSystem Servers
Software Herstelbare Actie Vereist (SRAR): Er zijn twee soorten fouten die worden gedetecteerd door de Data Cache Unit (DCU) en gedetecteerd door de Instruction Fetch Unit (IFU), ook wel bekend als het MCA-herstel uitvoeringspad.
Software Herstelbare Actie Optioneel (SRAO): Er zijn twee soorten fouten die worden gedetecteerd door geheugenpatrouille en gedetecteerd door Last Level Cache (LLC) expliciete schrijftransactie, ook wel bekend als het MCA-herstel niet-uitvoeringspad.

Wanneer een SRAR/SRAO zich voordoet, wordt het MCA-herstel geactiveerd.

SRAR/SRAO Virtuele Machine

Bron: Engineering Practice to Reduce Server Crash Rate from DDR Uncorrectable Errors (UCE) in Hyperscale Cloud Data Center, zie URL: Intel® Engineering Practice to Reduce Server Crash Rate

Adresbereik Spiegeling / Deeltijd Geheugen Spiegeling

Adresbereik Spiegeling is een nieuwe geheugen RAS-functie op het Intel Xeon Scalable Family-platform die een grotere granulariteit mogelijk maakt bij het selecteren van hoeveel geheugen is toegewezen voor redundantie. Implementaties van geheugenmirroring (volledige spiegelmodus of adresbereikmodus) zijn ontworpen om het spiegelen van kritieke geheugengebieden mogelijk te maken om de stabiliteit van fysiek geheugen te vergroten. Het gespiegeld geheugen is transparant voor het besturingssysteem en applicaties. Een illustratie hieronder toont Adresbereik Spiegeling in de praktijk, waarbij het groene adresbereik en het oranje adresbereik in spiegel zijn.

pic10

De Intel Xeon Sliver SKU’s en hoger ondersteunen tot twee spiegelbereiken in één socket, één spiegelbereik per geïntegreerde Geheugencontroller (iMC). Het bereik wordt gedefinieerd door de waarde die is geprogrammeerd in het Target Address Decoder 0 (TAD0) register voor de server. De TAD0 definieert de grootte van de primaire en secundaire spiegelbereiken. Het secundaire spiegelbereik is gereserveerd voor redundantie en wordt niet gerapporteerd in de totale geheugengrootte. Om Adresbereik Spiegeling in te schakelen, is er een Control and Status Register (CSR) bit dat het gebruik van TAD0 voor spiegeling inschakelt.

Adresbereik Spiegeling biedt de volgende voordelen:

  • Biedt verdere granulariteit voor geheugenmirroring door de firmware of het besturingssysteem in staat te stellen een bereik van geheugenadressen te bepalen die gespiegeld moeten worden, terwijl de rest van het geheugen in de socket in niet-spiegelmodus blijft.
  • Vermindert de hoeveelheid geheugen die is gereserveerd voor redundantie.
  • Verbetert de hoge beschikbaarheid, waardoor niet-corrigeerbare fouten in het kernelgeheugen van het besturingssysteem worden vermeden door al het kernelgeheugen uit het gespiegeld geheugen toe te wijzen.

Adresbereik Spiegeling heeft de volgende vereisten voor het besturingssysteem en firmware:

  • De opstartmodus van het systeem moet zijn ingesteld op 'UEFI Boot'.
  • Vereist ondersteuning van het besturingssysteem om Adresbereik Spiegeling volledig te benutten.
  • Het besturingssysteem moet op de hoogte zijn van het gespiegeld gebied.
  • Afhankelijkheid van systeemfirmware om de Adresbereik Spiegeling te configureren:
    • Gebruik UEFI-configuratie om Adresbereik Spiegeling in te schakelen met een vaste spiegelgrootte. ThinkSystems geleverd met Gen 1, Gen 2 en Gen3 Intel Xeon-processors ondersteunen spiegelmodusconfiguratie via de UEFI-configuratiepagina zoals eerder beschreven.
    • Gebruik van besturingssysteemconfiguratiecommando's zoals “efibootmgr en kernelcore=mirror” om de Adresbereik Spiegeling te configureren met verschillende spiegelgroottes via de firmware-OS-interface. ThinkSystems geleverd met Gen 1, Gen 2 en Gen3 Intel Xeon-processors hebben basisondersteuning en er is een plan om volledige ondersteuning te hebben in een toekomstige generatie platforms die het besturingssysteem in staat zal stellen een percentage van het geheugen te vragen dat moet worden gespiegeld op basis van zijn unieke behoeften.
Document-ID:HT512486
Oorspronkelijke publicatiedatum:06/07/2021
Laatste gewijzigde datum:04/07/2025