Bitte beachten Sie: Diese Website enthält ein Barrierefreiheitssystem. Drücken Sie Strg-F11, um die Website an Sehbehinderte anzupassen, die einen Bildschirmleser verwenden; Drücken Sie Strg-F10, um ein Eingabehilfemenü zu öffnen.

Die besten Praktiken von Lenovo zur Behandlung von unkorrektierbaren Speicherfehlern bei Intel® auf Gen 1, Gen 2 oder "H" SKUs der Gen 3 Xeon® Scalable-Prozessoren

Die besten Praktiken von Lenovo zur Behandlung von unkorrektierbaren Speicherfehlern bei Intel® auf Gen 1, Gen 2 oder "H" SKUs der Gen 3 Xeon® Scalable-Prozessoren

Die besten Praktiken von Lenovo zur Behandlung von unkorrektierbaren Speicherfehlern bei Intel® auf Gen 1, Gen 2 oder "H" SKUs der Gen 3 Xeon® Scalable-Prozessoren

Dieser Beitrag wurde maschinell übersetzt. Für die englische Originalversion bitte hier klicken.

Beschreibung

Lenovo ist seit 7 Jahren die Nummer 1 in Zuverlässigkeit und möchte seine Kunden über die Reduzierungen informieren, die in allen Branchensystemen auftreten, die bestimmte Generationen von Intel® Prozessoren verwenden, welche generationenbedingt die Fehlerüberprüfungs- und Korrekturfähigkeiten, die den OEM-Systemanbietern zur Verfügung stehen, verringert haben. Eine Kombination aus DDR-Speicherfehlern und architektonischen Änderungen, die in der Logik zur Korrektur von Speicherfehlern vorhanden sind, bei Gen 1 Xeon® Scalable Prozessoren (Codename "Skylake"), Gen 2 Xeon® Scalable Prozessoren (Codename "Cascade Lake") und Gen 3 Xeon® Scalable Prozessoren (Codename "Cooper Lake-6") kann zu einer höheren Rate von zur Laufzeit nicht korrigierbaren Speicherfehlern (UCE) im Vergleich zu vorherigen Hardwaregenerationen führen. Dies ist auf die implementierten Änderungen in der Single Device Data Correction (SDDC) zurückzuführen. SDDC ist ein grundlegendes Intel RAS (Zuverlässigkeit, Verfügbarkeit, Wartbarkeit) Merkmal, das auf allen Plattformen verfügbar ist. Aufgrund dieser architektonischen Änderungen und Speicher-DIMM-Fehler gibt es einen Unterschied darin, welche Fehler zwischen der vorherigen Prozessorgeneration und der Xeon® Scalable Prozessorfamilie korrigiert werden. Für weitere Informationen von Intel® siehe Wie verbessere ich die Speicherverwaltung mit 1., 2. oder 3. Generation Intel® Xeon® Scalable Prozessoren. Dieser Artikel konzentriert sich auf wichtige Strategien zur Minderung von DDR nicht korrigierbaren Fehlern, die manchmal zu Anwendungsabbrüchen oder Serverabstürzen führen.

Das Problem kann identifiziert werden, indem nicht korrigierbare Speicherfehler oder Maschinenprüfungsfehlerereignisse beobachtet werden, die von Lenovo ThinkSystem oder ThinkAgile-Produkten gemeldet werden:

XCC-Ereignisprotokoll:

FQXSFMA0002M : Ein nicht korrigierbarer Speicherfehler wurde auf DIMM [arg1] an Adresse [arg2] erkannt. [arg3] FQXSFPU0062F : System nicht korrigierbarer Fehler trat im Prozessor [arg1] Kern [arg2] MC-Bank [arg3] mit MC-Status [arg4], MC-Adresse [arg5] und MC-Misc [arg6] auf. FQXSFPU0027N : System nicht korrigierter wiederherstellbarer Fehler ist auf dem Prozessor [arg1] Kern [arg2] MC-Bank [arg3] mit MC-Status [arg4], MC-Adresse [arg5] und MC-Misc [arg6] aufgetreten. 

(wobei XCC = Lenovo XClarity Controller)

Jede Zeile unten wird durch Klicken auf den Pfeil auf der rechten Seite des Titels mit zusätzlichen Informationen erweitert
Dropdown-Pfeil

Anwendbare Systeme

Das System kann einer der folgenden Lenovo Server sein:

Best Practices

ThinkSystem Firmware unterstützt RAS-Funktionen, die von Intel® Scalable Prozessoren angeboten werden, die die Häufigkeit von DDR nicht korrigierbaren Fehlern erheblich reduzieren können. Daher sollten Systemadministratoren und Betreiber die RAS-Funktionen nutzen, die von Gen1/Gen2/Gen3 Intel® Xeon® Scalable Prozessoren unterstützt werden, und regelmäßige On-Target-Speichertests planen, die innerhalb von LXPM verfügbar sind. Die in diesem Artikel skizzierten Best Practices sollten auch für zukünftige CPU-Generationen anwendbar sein, die Speicher über die DDR4-Generation hinaus unterstützen, die mit Gen 3 Xeon® Scalable Prozessoren (Codename "Cooper Lake-6") angeboten wird.

Code-Aktualität aufrechterhalten

Aktualisieren Sie Produktions-ThinkSystem Server auf den im ersten Quartal 2021 oder höher veröffentlichten Firmware-Stack, um sicherzustellen, dass alle bekannten Intel und Lenovo Firmware-Fehlerbehebungen angewendet wurden. Dies kann durch Navigieren zur Lenovo Support-Portal-URL erfolgen: https://support.lenovo.com und durch Auswahl der entsprechenden Produktgruppe, des Systemtyps, des Produktnamens, des Produkttyps und des Betriebssystems.

Planen Sie On-Target-Speicher-Screening

Planen Sie, LXPM Advanced Memory Tests mindestens alle 6 Monate sowie vor der Bereitstellung neuer Systeme oder der Wartung von Systemen durchzuführen. Weitere Informationen finden Sie unter URL: HT511056 - LXPM Advanced Memory Test reduziert DIMM-Fehler. Die folgenden Schritte sollten befolgt werden, wenn Sie diese Option in Betracht ziehen.

amt

  1. Halten Sie die Systemfirmware (UEFI & BMC/XCC) auf dem neuesten Stand: Für die besten Ergebnisse stellen Sie sicher, dass das Zielsystem die neueste Firmware oder den Firmware-Stack verwendet, der nach dem ersten Quartal 2021 veröffentlicht wurde.
    • Überprüfen Sie Systeminformationen während POST oder wählen Sie Systemübersicht, um die Firmware-Informationen des Systems zu überprüfen:
      post

      sys_info
       
  2. Wenn Sie die Methode der Befehlszeilenschnittstelle (CLI) verwenden, beziehen Sie sich auf die folgenden Befehle:

    Um das AMT zu aktivieren, führen Sie aus:

    OneCli.exe config set Memory.MemoryTest Enable --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0xF0000 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    

    Um das AMT zu deaktivieren, führen Sie aus:

    OneCli.exe config set Memory.MemoryTest Automatic --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    
  3. Wenn Sie die grafische Benutzeroberfläche (GUI) verwenden, schalten Sie den Server ein und drücken Sie F1, um das ThinkSystem UEFI-Setup-Menü, XClarity Provisioning Manager, zu betreten.
    F1

    sys_info
     
  4. Wählen Sie die Option Diagnose aus dem linken Menü.
    diags
     
  5. Wählen Sie Diagnose ausführen auf dem Diagnoseschirm.
    run_diags
     
  6. Wählen Sie Speichertest vom Dashboard.
    sele_mem
     
  7. Wählen Sie Erweiterter Speichertest aus dem Menü Speichertest.
    amt

    amt_run_diags
     
  8. Nachdem der erweiterte Speichertest (AMT) ausgewählt wurde, wird das System neu gestartet, und der Speichertest wird während UEFI POST durchgeführt. Dieser Test ähnelt sehr dem Test auf Fertigungsniveau und kann nicht deaktiviert werden, bis ein vollständiger Testzyklus abgeschlossen ist. Ein Neustart des Systems während des Testbetriebs startet den Speichertest von vorne, es sei denn, die CMOS-Batterie wird entfernt. Das System kehrt zur Diagnoseseite zurück und bietet eine Schnittstelle zum Speichern von Systemprotokollen, wenn es sich im grafischen Systemsetup befindet.
    amt_in_progress
     
  9. Die für den Test benötigte Zeit variiert je nach System. Nach Abschluss des Tests kehrt das System zur Seite für den Speichertest in LXPM zurück und fordert dazu auf, ein USB-Laufwerk in das System einzufügen, um die Protokolldatei zu speichern. Fügen Sie ein USB-Laufwerk in das System ein und klicken Sie auf Wiederholen, um fortzufahren. 
     
  10. Wenn ein Benutzer die Option zum Speichern des Testprotokolls umgehen möchte, muss das F1-Systemsetup so konfiguriert werden, dass es im Textmodus ausgeführt wird.

    Redfish-Befehl zum Aktivieren/Deaktivieren von AMT

    {
        "Attributes": {
            "Memory_MemoryTest": "Enabled",  
            "Memory_AdvMemTestOptions": 983040 
        }
    }
    

    Hinweis: Für weitere Details siehe Erweiterter Speichertest auf Xeon-basierten ThinkSystem Servern.

Aktivieren Sie die Maschinenprüfungswiederherstellung (MCA) und die lokale Maschinenprüfungswiederherstellung (LMCE)

MCA-Wiederherstellung ermöglicht es dem Betriebssystem zu entscheiden, ob der Fehler vom Betriebssystem ohne Systemausfall behoben werden kann. Weitere Informationen zu diesem RAS-Feature finden Sie im Abschnitt Details. Für detailliertere Informationen zur MCA-Wiederherstellung siehe den Abschnitt Zusätzliche Informationen.

Die folgenden Schritte sollten befolgt werden, wenn Sie diese Option in Betracht ziehen.

  1. Wenn Sie die CLI-Methode verwenden, wählen Sie „AdvancedRAS.MachineCheckRecovery=Enable”. Dieses Feature ist standardmäßig im UEFI-Setup aktiviert.
  2. Wenn Sie die GUI-Methode verwenden:
    1. Schalten Sie den Server ein.
    2. Drücken Sie F1 , um das Systemsetup, LXPM, zu betreten.
      F1
       
    3. Wählen Sie im linken Navigationsmenü SystemeinstellungenWiederherstellung und RAS, wie unten gezeigt.
      rec_ras
       
    4. Wählen Sie Erweiterte RAS.
      adv_ras
       
    5. Aktivieren Sie Maschinenprüfungswiederherstellung.
      enable_ras
       

Hinweis: Die MCA-Wiederherstellung und die lokale Maschinenprüfungswiederherstellung (LMCE) hängen von der Unterstützung des Betriebssystems ab. Konsultieren Sie daher Ihren OS-Anbieter bezüglich der MCA- und LMCE-Fähigkeiten, da jeder Betriebssystemanbieter RAS-Features mit eigenen Veröffentlichungszyklen implementiert. Die auf Lenovo basierende Plattformfirmware aktiviert standardmäßig die LMCE-basierte Wiederherstellung, aber diese Einstellung ist im UEFI-Setup nicht für den Benutzer sichtbar. Die Vorteile von LMCE gegenüber MCE werden im folgenden Dokument erörtert: Behandlung lokaler Maschinenprüfungsfehler in Linux.

Windows: Für eine detaillierte Beschreibung, wie Windows RAS-Features verwendet, konsultieren Sie bitte den Windows Hardwarefehlerarchitektur (WHEA) Entwurfsleitfaden. Siehe Abschnitt „Zusätzliche Informationen“ für die Liste der unterstützten RAS-Features nach Betriebssystem.

VMware: Die Maschinenprüfungswiederherstellung wird vom Kernel in der ESXi 5-Version und höher unterstützt. Siehe Abschnitt „Zusätzliche Informationen“ für die Liste der unterstützten RAS-Features nach Betriebssystem.

Darüber hinaus sollte der Benutzer die lokale Maschinenprüfungswiederherstellung (LMCE) nutzen, die standardmäßig in der ESXi 7.0-Version aktiviert ist. Siehe Lenovo ThinkSystem Server mit Intel® Optane™ DC Persistent Memory Module Unterstützung

Für die Lenovo ThinkSystem SR850P und SR850 ist aufgrund einer bekannten Hardwarebeschränkung erforderlich, das Kernel-Boot-Flag „useLMCE“ zu aktivieren, um die lokale Maschinenprüfungsfehlerwiederherstellung mit ESXi 6.7 U2 und höheren Versionen zu unterstützen.

  • Um die lokale MCE-Wiederherstellung auf einem ESXi 6.7 U2-System zu aktivieren:
    Führen Sie in der ESXi-Konsole diese beiden esxcli-Befehle aus, um die Kernel-Boot-Option auf TRUE zu setzen, verwenden Sie LMCE, und starten Sie dann das System neu, damit die Änderungen wirksam werden.
     esxcli system settings kernel set -s useLMCE -v TRUE
     /sbin/reboot
    
    Nach einem Neustart überprüfen Sie, ob die Einstellung wirksam wurde, indem Sie diesen Befehl ausführen:
     esxcli system settings kernel list -o “useLMCE

Linux: Siehe Abschnitt „Zusätzliche Informationen“ für die Liste der unterstützten RAS-Features nach Betriebssystem. Kernel-Support-Liste für die MCA-Wiederherstellung durch die wichtigsten Linux-Anbieter:

pic5

Quelle: Ingenieurpraxis zur Reduzierung der Serverabsturzrate aufgrund von DDR-unkorrigierbaren Fehlern (UCE) in hyperskaligen Cloud-Datenzentren, siehe Ingenieurpraxis zur Reduzierung von Serverabstürzen

Patrouillen-Scrubbing aktiv halten

Um eine Ansammlung von weichen Fehlern zu vermeiden, die sich in unkorrektierbare Fehler (UCE) verwandeln können, verfügt der Intel Chipsatz über eine integrierte Speicherbereinigungsengine. Sie liest Daten von jedem DDR-Speicherort und korrigiert Bitfehler (sofern vorhanden) mit einem Fehlerkorrekturcode (ECC), bevor sie die korrigierten Daten an denselben Ort zurückschreibt. Das Patrouillen-Scrubbing ist auf ein 24-Stunden-Intervall eingestellt, in dem jede Adresse während dieses Zeitraums überprüft wird.

  • Wenn Sie die CLI-Methode verwenden, wählen Sie „Memory.PatrolScrub=Enable“. Dieses Feature ist standardmäßig im UEFI-Setup aktiviert.

Cold Boot Fast deaktivieren

Erzwingen Sie das Speicherausbildung bei jedem Neustart, indem Sie Cold Boot Fast deaktivieren. Dies erhöht die Systemstartzeit während des POST. Der Zweck von Cold Boot Fast besteht darin, die Speicherausbildung zu überspringen, wenn in den letzten 90 Tagen keine Konfigurationsänderung festgestellt wurde, was die Systemstartzeit verbessert. Das Deaktivieren von Cold Boot Fast ermöglicht eine erneute Ausbildung der Speicher-Schnittstelle, um signifikante Änderungen der Umgebungsbedingungen auszugleichen.

  • Wenn Sie die CLI-Methode verwenden, wählen Sie „Memory.ColdBootFast=Disable”.
  • Dieses Feature ist standardmäßig im UEFI-Setup aktiviert.

Nutzen Sie die Post-Paket-Reparatur

Dies ist ein branchengeführtes Feature, das von JEDEC definiert wurde, um die Bootzeit-Post-Paket-Reparatur (PPR) zu aktivieren, um eine Zeile innerhalb eines DRAM zu ersetzen, die als fehlerhaft erachtet wird. Ziel des Features ist es, DIMM-Austausche im Feld aufgrund von fehlerhaften Zellen zu reduzieren. Während der Laufzeit kann ein DIMM, der korrigierbare Fehler aufweist, für eine PPR in einem nachfolgenden Bootzyklus eingeplant werden. Der DRAM, der den Fehler innerhalb des DIMM aufweist, wird intern durch eine Ersatzzeile innerhalb desselben DRAM ersetzt. Dieser PPR-Korrekturprozess ist dauerhaft.

Wenn Ihr System beispielsweise einen Laufzeit-PFA festgestellt hat, wird beim nächsten Neustart UEFI versuchen, eine Reparatur durchzuführen. Dies wird durch eine „Selbstheilung“-Nachricht im Ereignisprotokoll angezeigt, und nach Abschluss wird der PFA zurückgesetzt.

  • Dieses Feature ist standardmäßig im UEFI-Setup aktiviert .

Setzen Sie den Systembetriebsmodus auf maximale Leistung

In einigen Situationen wurde beobachtet, dass das Deaktivieren von Energiemanagementrichtlinien im System-UEFI und im vSphere-Client intermittierende „Unkorrektierbare Busfehler“ oder Systemneustarts und Speicherfehler behoben hat.

  • Bei Verwendung der CLI-Methode wählen Sie „OperatingModes.ChooseOperatingMode=Maximale Leistung“.
  • Um maximale Leistung mit der CLI-Methode zu aktivieren, führen Sie aus:
    OneCli.exe config set OperatingModes.ChooseOperatingMode "Maximale Leistung" --imm xcc_user_id:xcc_password@xcc_external_ip

Zur Referenz siehe Systemoptimierung für VMware auf x86-Servern und ThinkSystem, siehe Systemoptimierung für VMware auf x86-Servern und ThinkSystem
Zur Referenz siehe empfohlene UEFI-Einstellungen - Lenovo ThinkAgile HX-Systeme, siehe URL: Empfohlene UEFI-Einstellungen

Aktivieren Sie die Adressbereichsspiegelung / Teilweise Speicherspiegelung

Die Adressbereichsspiegelung ist eine RAS-Funktion, die auf den Intel Xeon Scalable Family-Plattformen verfügbar ist und eine granulare Kontrolle darüber ermöglicht, wie viel Speicher für Redundanz zugewiesen wird. Siehe Abschnitt „Details“ für weitere Informationen. Die folgenden Schritte sollten befolgt werden, wenn Sie diese Option in Betracht ziehen. Für detailliertere Informationen zur Adressbereichsspiegelung siehe bitte den Abschnitt „Zusätzliche Informationen“.

  1. Bei Verwendung der CLI-Methode wählen Sie „Memory.MirrorMode=Teilweise“, „Memory.Mirrorbelow4GB=Aktivieren“
  2. Wenn die Adressbereichsspiegelung aktiviert ist, wird der Speicherinhalt auf dem entfernten DIMM in der Partition dupliziert. Das bedeutet, dass nicht der gesamte Systemspeicher dem Betriebssystem zur Verfügung steht. Zum Beispiel wird bei aktivierter teilweiser Spiegelung UEFI 36 GB eines festen Speicherbetrags pro physischem Prozessor dem Spiegel zuweisen.
  3. Befolgen Sie die folgenden Schritte, um den teilweisen Spiegelmodus für die Speicherredundanz zu aktivieren:
    1. Schalten Sie den Server ein.
    2. Drücken Sie die F1 -Taste, um LXPM einzugeben:
      F1
       
    3. Wählen Sie im linken Navigationsmenü UEFI-Setup.
      uefi_setup
       
    4. Wählen Sie Systemeinstellungen.
      sys_setting
       
    5. Wählen Sie Speicher im mittleren Bereich.
      memory
       
    6. Scrollen Sie nach unten und wählen Sie Spiegelkonfiguration.
      mem_config
       
    7. Setzen Sie Spiegelmodus auf Teilweise und aktivieren Sie Spiegeln unter 4 GB, um sicherzustellen, dass die Speicherspiegelung niedrige Adressbereiche umfasst. 
      enable_mirror_mem_below_4gb
       

      Hinweis: Spiegeln unter 4 GB wird mit der MM-Konfigurationsbasis geteilt, für die die Standardeinstellung 3 GB beträgt. In diesem Beispiel haben wir das Spiegeln unter 4 GB aktiviert.

    8. Speichern Sie die Konfiguration und verlassen Sie das UEFI-Setup-Menü.
  4. Die Speicherinformationen des Speicherspiegels werden auf dem Systemstartbildschirm angezeigt. Die nutzbare Speicherkapazität wird gemäß der in UEFI festgelegten Konfiguration reduziert. Die Abbildung unten zeigt den speicherunabhängigen Modus auf der linken Seite und den Adressbereichsspiegelungsmodus auf der rechten Seite, bei dem 1536 GB Speicher auf eine nutzbare Kapazität von 1461 GB = 1536 (gesamt) - 36 (CPU1) - 36 (CPU2) - 3 (MM-Konfiguration) reduziert wird.
    pic7
     
  5. Hinweis:
  6. Nachdem die teilweise Speicherspiegelung im UEFI festgelegt wurde, kann man „esxcli hardware memory get“ verwenden, um zu überprüfen, dass Reliable Memory verwendet wird und über „0“ Bytes liegt.
    Siehe das folgende Beispiel:
    Vor der Aktivierung der teilweisen Speicherspiegelung im Adressbereich: [root@h2:~] esxcli hardware memory get Physischer Speicher: 549657530368 Bytes Zuverlässiger Speicher: 0 Bytes NUMA-Knotenzahl: 2
    Nach der Aktivierung der teilweisen Speicherspiegelung im Adressbereich: [root@h2:~] esxcli hardware memory get Physischer Speicher: 480938061824 Bytes Zuverlässiger Speicher: 68619579392 Bytes NUMA-Knotenzahl: 2

Zusätzliche Informationen

Unterstützte RAS-Funktionen nach Betriebssystem*

Eine Reihe von Tabellen, die unten aufgeführt sind, zeigt, wann Betriebssystemanbieter einzelne RAS-Funktionen erstmals übernommen haben, die zur Verbesserung der Systemstabilität und der Widerstandsfähigkeit gegen Hardwarefehler verwendet werden können.

* Die Tabellen unten listen alle großen Betriebssystemanbieter auf.

Unterstützte RAS-Funktionen auf Windows Server WS2016 WS2019 WS2022 Alle zukünftigen Versionen
MCA2.0 Wiederherstellung - Ausführungspfad X X X X
MCA2.0 Wiederherstellung - Nicht-Ausführungspfad X X X X
Wiederherstellung basierend auf lokaler Maschine (LMCE) - Ausführung   X X X
Adressbereich/Teilweise Spiegelung     X X

 

Unterstützte RAS-Funktionen auf VMware ESXi 5 GA 5.5 6 GA 6.5-6.7 (alle) 7.0 (alle) Alle zukünftigen Versionen
MCA2.0 Wiederherstellung - Ausführungspfad X X X X X X
MCA2.0 Wiederherstellung - Nicht-Ausführungspfad X X X X X X
Wiederherstellung basierend auf lokaler Maschine (LMCE) - Ausführung       X X X
Adressbereich/Teilweise Spiegelung   X X X X X

 

Unterstützte RAS-Funktionen auf RHEL 7.2 7.3 7.4 (alle) 8.x (alle) 9.x (alle) Alle zukünftigen Versionen
MCA2.0 Wiederherstellung - Ausführungspfad X X X X X X
MCA2.0 Wiederherstellung - Nicht-Ausführungspfad X X X X X X
Wiederherstellung basierend auf lokaler Maschine (LMCE) - Ausführung   X X X X X
Adressbereich/Teilweise Spiegelung     X X X X

 

Unterstützte RAS-Funktionen auf SUSE 11.04 12 GA 12 SP3 12 SP4 (alle) 15 (alle) Alle zukünftigen Versionen
MCA2.0 Wiederherstellung - Ausführungspfad X X X X X X
MCA2.0 Wiederherstellung - Nicht-Ausführungspfad X X X X X X
Wiederherstellung basierend auf lokaler Maschine (LMCE) - Ausführung     X X X X
Adressbereich/Teilweise Spiegelung       X X X

 

Unterstützte RAS-Funktionen auf Ubuntu 14.04 16.04 18.04 (alle) 20.04 (alle) 21.04 (alle) Alle zukünftigen Versionen
MCA2.0 Wiederherstellung - Ausführungspfad X X X X X X
MCA2.0 Wiederherstellung - Nicht-Ausführungspfad X X X X X X
Wiederherstellung basierend auf lokaler Maschine (LMCE) - Ausführung   X X X X X
Adressbereich/Teilweise Spiegelung   X X X X X

MCA-Wiederherstellung

Die neuen Intel Xeon Scalable Family Prozessoren unterstützen die Wiederherstellung von bestimmten Speicherfehlern basierend auf dem Machine Check Architecture (MCA) Wiederherstellungsmechanismus. Dies erfordert, dass das Betriebssystem eine Speicherseite als „vergiftet“ erklärt, die mit der Seite verbundenen Prozesse beendet und die Seite in Zukunft nicht mehr verwendet. Der MCA-Mechanismus wird verwendet, um Maschinenfehlerinformationen zu erkennen, zu signalisieren und aufzuzeichnen. Einige dieser Fehler sind korrigierbar, während andere nicht korrigierbar sind. Der MCA-Mechanismus soll CPU-Designern und CPU-Debuggern helfen, Prozessorfehler zu diagnostizieren, zu isolieren und zu verstehen. Er soll auch Systemadministratoren helfen, vorübergehende und altersbedingte Fehler zu erkennen, die während des langfristigen Betriebs des Servers auftreten. Die MCA-Wiederherstellungsfunktion ist Teil der fehlertoleranten Fähigkeiten von Servern, die auf den Intel Xeon Scalable Family Prozessoren basieren, wie z.B. dem ThinkSystem Portfolio von Servern. Diese Fähigkeiten ermöglichen es den Systemen, weiter zu arbeiten, wenn ein nicht korrigierter Fehler im System erkannt wird. Ohne diese Fähigkeiten würde das System abstürzen und könnte einen Hardwareaustausch oder einen Systemneustart erfordern.

Die MCA-Wiederherstellung ermöglicht es dem Betriebssystem zu entscheiden, ob der Fehler vom Betriebssystem ohne Systemausfall behoben werden kann, wenn die folgenden Vorbedingungen erfüllt sind:

  • Speicher-UCE ist ein nicht fatales Fehler
  • Die Adresse des Speicherfehlers befindet sich nicht im Kernel-Speicher
  • Die betroffene Anwendung kann vom Host-Betriebssystem beendet werden.

Die folgende Abbildung zeigt den Ablauf der Fehlerbehandlung im System mit einem Linux-Betriebssystem.

Ablauf der Fehlerbehandlung im System mit einem Linux-Betriebssystem

Quelle: siehe URL LP0778 - Demonstration der Memory RAS-Funktionen der Lenovo ThinkSystem Server
Software-Wiederherstellungsaktion erforderlich (SRAR): Es gibt zwei Arten solcher Fehler, die von der Data Cache Unit (DCU) und der Instruction Fetch Unit (IFU) erkannt werden, auch bekannt als MCA-Wiederherstellungs-Ausführungspfad.
Software-Wiederherstellungsaktion optional (SRAO): Es gibt zwei Arten solcher Fehler, die durch Speicherpatrouillen und durch Last Level Cache (LLC) explizite Schreibtransaktionen erkannt werden, auch bekannt als MCA-Wiederherstellungs-Nicht-Ausführungspfad.

Wenn ein SRAR/SRAO auftritt, wird die MCA-Wiederherstellung ausgelöst. Wenn der Kernel eine erfolgreiche Wiederherstellung durch das Beenden der Anwendung oder der virtuellen Maschine, die den nicht korrigierbaren Speicherfehler verursacht hat, durchführen kann, sollte das System online bleiben, wenn keine zusätzlichen nicht korrigierbaren Fehler erkannt werden.

SRAR/SRAO Virtuelle Maschine

Quelle: Ingenieurpraxis zur Reduzierung der Serverabsturzrate aufgrund von DDR nicht korrigierbaren Fehlern (UCE) in hyperskalierbaren Cloud-Datenzentren, siehe URL: Intel® Ingenieurpraxis zur Reduzierung der Serverabsturzrate

Adressbereichsspiegelung / Teilweise Speicher-Spiegelung

Die Adressbereichsspiegelung ist eine neue Speicher-RAS-Funktion auf der Intel Xeon Scalable Family Plattform, die eine größere Granularität bei der Auswahl ermöglicht, wie viel Speicher für Redundanz vorgesehen ist. Implementierungen der Speicher-Spiegelung (Vollspiegelmodus oder Adressbereichsmodus) sind so konzipiert, dass sie die Spiegelung kritischer Speicherbereiche ermöglichen, um die Stabilität des physischen Speichers zu erhöhen. Der gespiegelte Speicher ist für das Betriebssystem und die Anwendungen transparent. Eine Abbildung unten zeigt die Adressbereichsspiegelung in der Praxis, wobei der grüne Adressbereich und der orangefarbene Adressbereich gespiegelt sind.

pic10

Die Intel Xeon Sliver SKUs und höher unterstützen bis zu zwei Spiegelbereiche in einem Sockel, einen Spiegelbereich pro integriertem Speichercontroller (iMC). Der Bereich wird durch den im Target Address Decoder 0 (TAD0) Register für den Server programmierten Wert definiert. Der TAD0 definiert die Größe der primären und sekundären Spiegelbereiche. Der sekundäre Spiegelbereich ist für Redundanz reserviert und wird nicht in der Gesamtspeichergröße angegeben. Um die Adressbereichsspiegelung zu aktivieren, gibt es ein Steuer- und Statusregister (CSR)-Bit, das die Verwendung von TAD0 für die Spiegelung aktiviert.

Die Adressbereichsspiegelung bietet folgende Vorteile:

  • Bietet eine weitere Granularität für die Speicher-Spiegelung, indem es der Firmware oder dem Betriebssystem ermöglicht, einen Bereich von Speicheradressen zu bestimmen, die gespiegelt werden sollen, während der Rest des Speichers im Sockel im Nicht-Spiegelmodus bleibt.
  • Reduziert die Menge an Speicher, die für Redundanz reserviert ist.
  • Verbessert die hohe Verfügbarkeit, indem nicht korrigierbare Fehler im Kernel-Speicher des Betriebssystems vermieden werden, indem der gesamte Kernel-Speicher aus dem gespiegelten Speicher zugewiesen wird.

Die Adressbereichsspiegelung hat folgende Anforderungen an das Betriebssystem und die Firmware:

  • Der Systemstartmodus muss auf 'UEFI-Boot' eingestellt sein.
  • Erfordert OS-Unterstützung, um die Adressbereichsspiegelung vollständig zu nutzen.
  • Das Betriebssystem muss sich des gespiegelten Bereichs bewusst sein.
  • Abhängigkeit von der Systemfirmware zur Konfiguration der Adressbereichsspiegelung:
    • Verwendung der UEFI-Einstellungen zur Aktivierung der Adressbereichsspiegelung mit fester Spiegelsgröße. ThinkSystems, die mit Gen 1, Gen 2 und Gen 3 Intel Xeon-Prozessoren ausgeliefert werden, unterstützen die Konfiguration des Spiegelmodus über die UEFI-Einstellungsseite, wie zuvor beschrieben.
    • Verwendung von OS-Einstellungsbefehlen wie „efibootmgr und kernelcore=mirror“, um die Adressbereichsspiegelung mit unterschiedlichen Spiegelsgrößen über die Firmware-OS-Schnittstelle zu konfigurieren. ThinkSystems, die mit Gen 1, Gen 2 und Gen 3 Intel Xeon-Prozessoren ausgeliefert werden, haben eine grundlegende Unterstützung, und es gibt einen Plan, in einer zukünftigen Generation von Plattformen vollständige Unterstützung zu bieten, die es dem Betriebssystem ermöglichen wird, % des Speichers basierend auf seinen einzigartigen Bedürfnissen zu spiegeln.
Dokumenten-ID:HT512486
Ursprüngliches Veröffentlichungsdatum:06/07/2021
Datum der letzten Änderung:04/07/2025