Kérjük, vegye figyelembe: Ez a weboldal tartalmaz akadálymentességi rendszert. Nyomja meg az Control-F11 billentyűkombinációt, hogy a képernyőt olvasható látássérültekhez igazítsa; Nyomja meg a Control-F10 billentyűt a kisegítő lehetőségek menü megnyitásához.

Lenovo legjobb gyakorlatai a Intel® javíthatatlan memóriahiba kezelésére az 1. generációs, 2. generációs vagy "H" SKU-k esetében a 3. generációs Xeon® Skálázható processzoroknál

Lenovo legjobb gyakorlatai a Intel® javíthatatlan memóriahiba kezelésére az 1. generációs, 2. generációs vagy "H" SKU-k esetében a 3. generációs Xeon® Skálázható processzoroknál

Lenovo legjobb gyakorlatai a Intel® javíthatatlan memóriahiba kezelésére az 1. generációs, 2. generációs vagy "H" SKU-k esetében a 3. generációs Xeon® Skálázható processzoroknál

Ez egy gépi fordítású cikk, az eredeti angol verzió megtekintéséhez kattintson ide.

Leírás

Lenovo 7 éve a megbízhatóság #1, és szeretné tájékoztatni ügyfeleit a bizonyos generációjú Intel® processzorokat használó ipari rendszerekben rejlő csökkentésekről, amelyek generációsan csökkentették az OEM rendszerforgalmazók számára elérhető hibajavító és ellenőrző képességeket. A DDR memóriahibák és a javító memóriahiba-kezelési logikában bekövetkezett architekturális változások kombinációja, a Gen 1 Xeon® Scalable processzorok (kódnevén "Skylake"), Gen 2 Xeon® Scalable processzorok (kódnevén "Cascade Lake") és Gen 3 Xeon® Scalable processzorok (kódnevén "Cooper Lake-6") esetében magasabb futási időben előforduló nem javítható memóriahibák (UCE) arányát eredményezheti a korábbi generációs hardverekhez képest. Ez a Single Device Data Correction (SDDC) bevezetett változásainak köszönhető. Az SDDC egy alapvető Intel RAS (megbízhatóság, elérhetőség, szervizelhetőség) funkció, amely minden platformon elérhető. Ezen architekturális változások és memória DIMM hibák következtében eltérés van a korábbi generációs processzorok és a Xeon® Scalable processzorcsalád generációja között, hogy mely hibák kerülnek javításra. További információkért a Intel®-tól kérjük, látogasson el a Hogyan javíthatom a memória kezelését az 1., 2. vagy 3. generációs Intel® Xeon® Scalable processzorokkal című cikkre. Ez a cikk a DDR nem javítható hibák mérséklésének kulcsfontosságú stratégiáira összpontosít, amelyek néha alkalmazás leállításhoz vagy szerver összeomláshoz vezetnek.

A probléma az Lenovo ThinkSystem vagy ThinkAgile termékek által jelentett nem javítható memóriahiba vagy gépellenőrzési hiba események megfigyelésével azonosítható:

XCC eseménynapló:

FQXSFMA0002M : Nem javítható memóriahibát észleltek a DIMM [arg1] [arg2] címen. [arg3] FQXSFPU0062F : Rendszer nem javítható hiba történt a Processzor [arg1] Core [arg2] MC bank [arg3] esetében MC Status [arg4], MC Address [arg5], és MC Misc [arg6] értékekkel. FQXSFPU0027N : Rendszer nem javított helyreállítható hiba történt a Processzor [arg1] Core [arg2] MC bank [arg3] esetében MC Status [arg4], MC Address [arg5], és MC Misc [arg6] értékekkel.

(ahol XCC = Lenovo XClarity Controller)

Minden egyes sor alább további információkkal bővül, ha a cím jobb oldalán található nyílra kattint.
Legördülő nyíl

Alkalmazható rendszerek

A rendszer lehet bármelyik következő Lenovo szerver:

Legjobb gyakorlatok

ThinkSystem firmware támogatja a Intel® Scalable processzor által kínált RAS funkciókat, amelyek jelentősen csökkenthetik a DDR nem javítható hibák előfordulásának gyakoriságát. Ezért a rendszergazdáknak és üzemeltetőknek ki kell használniuk a Gen1/Gen2/Gen3 Intel® Xeon® Scalable processzorok által támogatott RAS funkciókat, és tervezniük kell a LXPM keretein belül elérhető rutin memória teszteket. A cikkben ismertetett legjobb gyakorlatoknak alkalmazhatónak kell lenniük a jövőbeli CPU generációkra, amelyek támogatni fogják a DDR4 generáción túli memóriát, amelyet a Gen 3 Xeon® Scalable processzorok (kódnevén "Cooper Lake-6") kínálnak.

Kódfrissítés fenntartása

Frissítse a gyártási ThinkSystem szervereket a 2021 első negyedévében kiadott firmware csomagra vagy annál magasabb verzióra, amely biztosítja, hogy minden ismert Intel és Lenovo firmware javítás alkalmazva legyen. Ezt a Lenovo Támogatási Portál URL-jén navigálva teheti meg: https://support.lenovo.com, és az adott Termékcsoport, Rendszer típusa, Termék neve, Termék géptípusa és Operációs rendszer kiválasztásával.

Tervezze meg a célzott memória szűrést

Tervezze meg az LXPM Fejlett Memória Tesztek futtatását legalább 6 havonta, valamint új rendszer telepítése vagy rendszerkarbantartás előtt, lásd a URL-t: HT511056 - LXPM Fejlett Memória Teszt csökkenti a DIMM hibákat. A következő lépéseket kell követni, amikor ezt az opciót fontolgatja.

amt

  1. Tartsa naprakészen a rendszer firmware-jét (UEFI & BMC/XCC): a legjobb eredmények érdekében győződjön meg arról, hogy a célrendszer a legújabb firmware-t vagy a 2021 első negyedéve után kiadott firmware csomagot futtatja.
    • Az Rendszerinformáció ellenőrzése a POST során, vagy válassza a Rendszer összegzés lehetőséget a rendszer firmware információinak ellenőrzéséhez:
      post

      sys_info
       
  2. A Parancssori Felület (CLI) módszer használatakor hivatkozzon az alábbi parancsokra:

    Az AMT engedélyezéséhez futtassa:

    OneCli.exe config set Memory.MemoryTest Enable --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0xF0000 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    

    Az AMT letiltásához futtassa:

    OneCli.exe config set Memory.MemoryTest Automatic --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    
  3. A Grafikus Felhasználói Felület (GUI) használatakor kapcsolja be a szervert, és nyomja meg F1 a ThinkSystem UEFI beállító menübe való belépéshez, XClarity Provisioning Manager.
    F1

    sys_info
     
  4. Diagnosztika lehetőséget a bal oldali menüből.
    diags
     
  5. Válassza a Diagnosztika futtatása lehetőséget a Diagnosztika képernyőről.
    run_diags
     
  6. Válassza a Memória teszt lehetőséget a Vezérlőpulton.
    sele_mem
     
  7. Válassza a Fejlett Memória Teszt lehetőséget a Memória Teszt menüből.
    amt

    amt_run_diags
     
  8. Miután a Fejlett Memória Teszt (AMT) ki lett választva, a rendszer újraindul, és a memória teszt a UEFI POST során fut. Ez a teszt nagyon hasonló a gyártási szintű teszthez, és nem lehet letiltani, amíg egy teljes tesztciklus be nem fejeződik. A rendszer újraindítása a teszt működése közben a memória tesztet az elejétől kezdi újra, hacsak a CMOS akkumulátor nincs eltávolítva. A rendszer visszatér a Diagnosztikai oldalra, és felületet biztosít a rendszer naplók mentésére, amikor Grafikus Rendszerbeállításban van.
    amt_in_progress
     
  9. A teszt befejezéséhez szükséges idő a rendszertől függ. A teszt befejezése után a rendszer visszatér a Memória teszt oldalra az LXPM-ben, és felkéri, hogy helyezzen be egy USB meghajtót a rendszerbe a naplófájl mentéséhez. Helyezzen be egy USB meghajtót a rendszerbe, és kattintson a Újrapróbálkozás gombra a folytatáshoz. 
     
  10. Ha a felhasználó szeretné megkerülni a teszt napló mentésének lehetőségét, akkor az F1 Rendszerbeállítást Text Módban kell konfigurálni.

    Redfish parancs az AMT engedélyezésére/letiltására

    {
        "Attributes": {
            "Memory_MemoryTest": "Enabled",  
            "Memory_AdvMemTestOptions": 983040 
        }
    }
    

    Megjegyzés: További részletekért kérjük, hivatkozzon a Fejlett Memória Teszt Xeon alapú ThinkSystem szervereken című dokumentumra.

Engedélyezze a Gépkontroll Helyreállítást (MCA) és a Helyi Gépkontroll (LMCE) helyreállítást

A MCA Helyreállítás lehetővé teszi az operációs rendszer számára, hogy eldöntse, hogy a hiba helyreállítható-e az operációs rendszer által anélkül, hogy a rendszert le kellene állítani. További információkért erről a RAS funkcióról kérjük, nézze meg a részletek szakaszt. A MCA Helyreállítás részletes információiért kérjük, nézze meg a További Információk szakaszt.

A következő lépéseket kell követni, amikor ezt az opciót fontolgatja.

  1. CLI módszer használatakor válassza a “AdvancedRAS.MachineCheckRecovery=Enable” lehetőséget. Ez a funkció alapértelmezés szerint engedélyezve van az UEFI beállításban.
  2. GUI módszer használatakor:
    1. Kapcsolja be a szervert.
    2. Nyomja meg F1  a Rendszerbeállításba való belépéshez, LXPM.
      F1
       
    3. A bal oldali navigációs menüből válassza a RendszerbeállításokHelyreállítás és RAS lehetőséget, ahogy az alábbiakban látható.
      rec_ras
       
    4. Válassza az Fejlett RAS lehetőséget.
      adv_ras
       
    5. Engedélyezze a Gépkontroll Helyreállítást.
      enable_ras
       

Megjegyzés: A MCA helyreállítás és a Helyi Gépkontroll (LMCE) helyreállítás az operációs rendszer támogatásától függ, ezért konzultáljon operációs rendszer szolgáltatójával a MCA és LMCE képességekről, mivel minden operációs rendszer gyártó saját kiadási ciklusait használja a RAS funkciók bevezetésére. A Lenovo alapú platform firmware alapértelmezés szerint engedélyezi az LMCE alapú helyreállítást, de ez a beállítás nem érhető el a Felhasználói Térben az UEFI Beállításban. Az LMCE előnyei az MCE-vel szemben a következő dokumentumban találhatók: Helyi Gépkontroll Kivételkezelés Linuxban.

Windows: A Windows RAS funkciók használatának részletes leírásához kérjük, konzultáljon a Windows Hardverhiba Architektúra (WHEA) tervezési útmutatóval. A További Információk szakaszban található a támogatott RAS funkciók listája operációs rendszerenként.

VMware: A Gépkontroll helyreállítást az ESXi 5 kiadású és újabb kernel támogatja. A További Információk szakaszban található a támogatott RAS funkciók listája operációs rendszerenként.

Ezenkívül a felhasználónak érdemes kihasználni a Helyi Gépkontroll (LMCE) alapú helyreállítást, amely alapértelmezés szerint engedélyezve van az ESXi 7.0 verzióban, lásd Lenovo ThinkSystem szerverek Intel® Optane™ DC Tartós Memória Modul Támogatással

A Lenovo ThinkSystem SR850P és SR850 esetében, egy ismert hardverkorlátozás miatt, szükséges az “useLMCE” kernel indító zászló engedélyezése a helyi gépkontroll hiba helyreállításának támogatásához az ESXi 6.7 U2 és újabb verziókban.

  • A helyi MCE helyreállítás engedélyezéséhez az ESXi 6.7 U2 rendszeren:
    Az ESXi konzolon futtassa ezeket a két esxcli parancsot a kernel indító opció beállításához, használja a LMCE-t TRUE-ra, majd indítsa újra a rendszert a változtatások érvényesítéséhez.
     esxcli system settings kernel set -s useLMCE -v TRUE
     /sbin/reboot
    
    Az újraindítás után ellenőrizze, hogy a beállítás érvénybe lépett-e, futtassa ezt a parancsot:
     esxcli system settings kernel list -o “useLMCE

Linux: Kérjük, nézze meg a További Információk szakaszt a támogatott RAS funkciók listájáért operációs rendszerenként. A MCA helyreállításhoz szükséges kernel támogatási lista a főbb Linux gyártóktól:

pic5

Forrás: Mérnöki gyakorlat a szerver összeomlási arányának csökkentésére DDR nem javítható hibák (UCE) esetén a hyperscale felhő adatközpontban, lásd Mérnöki gyakorlat a szerver összeomlásának csökkentésére

Tartsa engedélyezve a Patrol Scrub-ot

A lágy hibák felhalmozódásának elkerülése érdekében, amelyek nem javítható hibává (UCE) alakulhatnak, a Intel chipkészlet beépített memória tisztító motorral rendelkezik. Ez minden DDR memóriahelyről olvassa az adatokat, és javítja a bit hibákat (ha vannak) egy hibajavító kód (ECC) segítségével, majd a javított adatokat visszaírja ugyanarra a helyre. A Patrol scrubbing 24 órás intervallumra van beállítva, ahol minden címet ellenőriznek ebben az időszakban.

  • CLI módszer használatakor válassza a “Memory.PatrolScrub=Enable” lehetőséget. Ez a funkció alapértelmezés szerint engedélyezve van az UEFI beállításban.

Tiltsa le a Hideg Indítást Gyorsan

Kényszerítse a Memória Képzést minden újraindításkor a Hideg Indítás Gyors letiltásával, ez növelni fogja a rendszer indítási idejét a POST során. A Hideg Indítás Gyors célja, hogy kihagyja a memória képzést, ha az elmúlt 90 napban nem észleltek konfigurációs változást, ami javítja a rendszer indítási idejét. A Hideg Indítás Gyors letiltása lehetővé teszi a memória interfész újraképzését, kompenzálva a környezeti feltételek jelentős változásait.

  • CLI módszer használatakor válassza a “Memory.ColdBootFast=Disable” lehetőséget.
  • Ez a funkció alapértelmezés szerint engedélyezve van az UEFI beállításban.

Használja ki a Post Package Repair-t

Ez egy iparági vezetésű funkció, amelyet a JEDEC határozott meg a Boot Time Post Package Repair (PPR) engedélyezésére, hogy egy hibás sort helyettesítsen egy DRAM-on belül. A funkció célja a DIMM cserék csökkentése a terepen a hibás cellák jelenléte miatt. Futásidő alatt egy DIMM, amely javítható hibákat tapasztal, ütemezhető, hogy a következő indítási ciklusban PPR-t végezzenek rajta. A hibát tapasztaló DRAM-on belül a DIMM-en belül a sort belsőleg egy tartalék sorra cserélik, ugyanazon DRAM-on belül. Ez a PPR javító fúziós folyamat végleges.

Például, ha a rendszere futásidőben PFA-t állapított meg, akkor a következő újraindítási ciklusban az UEFI megpróbálja a javítást. Ezt a “Self-Heal” üzenet jelzi az eseménynaplóban, és a befejezés után a PFA-t eltávolítják.

  • Ez a funkció alapértelmezés szerint engedélyezve van az UEFI beállításban .

Állítsa be a Rendszer Működési Módot Maximális Teljesítményre

Bizonyos helyzetekben megfigyelték, hogy a rendszer UEFI és a vSphere kliens energiamenedzsment politikáinak letiltása megoldotta az időszakos 'Javíthatatlan Busz Hibákat' vagy a rendszer újraindulását és memóriahibákat.

  • CLI módszer használatakor válassza az “OperatingModes.ChooseOperatingMode=Maximum Performance” lehetőséget.
  • A Maximum Performance engedélyezéséhez CLI módszerrel futtassa:
    OneCli.exe config set OperatingModes.ChooseOperatingMode "Maximum Performance" --imm xcc_user_id:xcc_password@xcc_external_ip

Referencia céljából lásd a System tuning for VMware on x86 Servers és ThinkSystem, lásd System tuning for VMware on x86 Servers és ThinkSystem
Referencia céljából lásd a Recommended UEFI settings - Lenovo ThinkAgile HX rendszerekhez, lásd az URL-t: Recommended UEFI settings

Címzési tartomány tükör / Részleges memória tükör engedélyezése

A címzési tartomány tükör egy RAS funkció, amely elérhető a Intel Xeon Skálázható Család platformjain, amely lehetővé teszi a memória redundancia szempontjából történő részletes ellenőrzést, lásd a részletek szakaszt további információkért. Az alábbi lépéseket kell követni, amikor ezt az opciót fontolgatja. A címzési tartomány tükörrel kapcsolatos részletesebb információkért kérjük, nézze meg a További információk szakaszt.

  1. CLI módszer használatakor válassza a “Memory.MirrorMode=Partial”, “Memory.Mirrorbelow4GB=Enable” lehetőséget
  2. Ha a címzési tartomány tükör engedélyezve van, a memória tartalma meg lesz duplikálva a távoli DIMM-en a partícióban. Ez azt jelenti, hogy nem minden rendszer memória lesz elérhető az operációs rendszer számára. Például, részleges tükör engedélyezése esetén az UEFI 36 GB fix mennyiségű memóriát fog dedikálni a tükör számára fizikai processzoronként.
  3. Kövesse az alábbi lépéseket a memória redundancia részleges tükör módjának engedélyezéséhez:
    1. Kapcsolja be a szervert.
    2. Nyomja meg az F1 gombot az LXPM belépéshez:
      F1
       
    3. Válassza az UEFI Setup lehetőséget a bal navigációs menüben.
      uefi_setup
       
    4. Válassza a System Settings lehetőséget.
      sys_setting
       
    5. Válassza a Memory lehetőséget a középső panelen.
      memory
       
    6. Görgessen le az aljára, és válassza a Mirror Configuration lehetőséget.
      mem_config
       
    7. Állítsa be a Mirror Mode-ot Partial-ra, és engedélyezze a Mirror below 4 GB lehetőséget, hogy biztosítsa, hogy a memória tükör tartalmazza az alacsony címzési tartományokat. 
      enable_mirror_mem_below_4gb
       

      Megjegyzés: Mirror below 4GB megosztott az MM konfigurációs bázissal, amelynek alapértelmezett beállítása 3 GB. Ebben a példában engedélyeztük a Mirror below 4 GB-t.

    8. Mentse el a konfigurációt, és lépjen ki az UEFI beállító menüből.
  4. A memória tükör memória információja a rendszer indító képernyőjén jelenik meg. A felhasználható memória kapacitása csökken a UEFI-ben beállított konfiguráció szerint. Az alábbi ábra a memória független módját mutatja a bal oldalon, és a címzési tartomány tükör módját a jobb oldalon, ahol az 1536G memória felhasználható kapacitása 1461GB-ra csökken = 1536(Total)-36(CPU1)-36(CPU2)-3(MM Config).
    pic7
     
  5. Megjegyzés:
  6. Miután a részleges memória tükör be van állítva az UEFI-ben, használhatja az “esxcli hardware memory get” parancsot annak ellenőrzésére, hogy a megbízható memória használatban van-e és meghaladja a ‘0’ bájtot.
    Hivatkozzon az alábbi példára:
    Az címzési tartomány részleges memória tükör bekapcsolása előtt: [root@h2:~] esxcli hardware memory get Fizikai memória: 549657530368 bájt Megbízható memória: 0 bájt NUMA csomópontok száma: 2
    Az címzési tartomány részleges memória tükör bekapcsolása után: [root@h2:~] esxcli hardware memory get Fizikai memória: 480938061824 bájt Megbízható memória: 68619579392 bájt NUMA csomópontok száma: 2

További információk

Támogatott RAS funkciók operációs rendszerenként*

Az alábbi táblázatok egy sorát mutatják be, amikor az operációs rendszer gyártói először fogadták el az egyes RAS funkciókat, amelyek javíthatják a rendszer stabilitását és ellenálló képességét a hardverhibákkal szemben.

* Az alábbi táblázatok felsorolják az összes fő operációs rendszer gyártót.

Támogatott RAS funkciók a Windows szerveren WS2016 WS2019 WS2022 Minden jövőbeli verzió
MCA2.0 Recovery-Végrehajtási útvonal X X X X
MCA2.0 Recovery-Nem végrehajtási útvonal X X X X
Helyi gép (LMCE) alapú Recovery-Végrehajtás   X X X
Címzési tartomány/Részleges tükör     X X

 

Támogatott RAS funkciók VMware ESXi-n 5 GA 5.5 6 GA 6.5-6.7 (mind) 7.0 (mind) Minden jövőbeli verzió
MCA2.0 Recovery-Végrehajtási útvonal X X X X X X
MCA2.0 Recovery-Nem végrehajtási útvonal X X X X X X
Helyi gép (LMCE) alapú Recovery-Végrehajtás       X X X
Címzési tartomány/Részleges tükör   X X X X X

 

Támogatott RAS funkciók RHEL-en 7.2 7.3 7.4 (mind) 8.x (mind) 9.x (mind) Minden jövőbeli verzió
MCA2.0 Recovery-Végrehajtási útvonal X X X X X X
MCA2.0 Recovery-Nem végrehajtási útvonal X X X X X X
Helyi gép (LMCE) alapú Recovery-Végrehajtás   X X X X X
Címzési tartomány/Részleges tükör     X X X X

 

Támogatott RAS funkciók SUSE-n 11.04 12 GA 12 SP3 12 SP4 (mind) 15 (mind) Minden jövőbeli verzió
MCA2.0 Recovery-Végrehajtási útvonal X X X X X X
MCA2.0 Recovery-Nem végrehajtási útvonal X X X X X X
Helyi gép (LMCE) alapú Recovery-Végrehajtás     X X X X
Címzési tartomány/Részleges tükör       X X X

 

Támogatott RAS funkciók Ubuntu-n 14.04 16.04 18.04 (mind) 20.04 (mind) 21.04 (mind) Minden jövőbeli verzió
MCA2.0 Recovery-Végrehajtási útvonal X X X X X X
MCA2.0 Recovery-Nem végrehajtási útvonal X X X X X X
Helyi gép (LMCE) alapú Recovery-Végrehajtás   X X X X X
Címzési tartomány/Részleges tükör   X X X X X

MCA Recovery

Az új Intel Xeon Skálázható Család processzorai támogatják a memóriahibák helyreállítását a Gépellenőrzési Architektúra (MCA) helyreállítási mechanizmusának alapján. Ez megköveteli az operációs rendszertől, hogy egy memóriaoldalt „mérgezettnek” nyilvánítson, megszüntesse az oldalhoz kapcsolódó folyamatokat, és a jövőben kerülje az oldal használatát. Az MCA mechanizmus a géphibák információinak észlelésére, jelzésére és rögzítésére szolgál. Ezek közül néhány hiba javítható, míg mások nem. Az MCA mechanizmus célja, hogy segítsen a CPU tervezőknek és CPU hibakeresőknek a processzorhibák diagnosztizálásában, elkülönítésében és megértésében. Ezenkívül a rendszeradminisztrátoroknak is segítenie kell a múló és életkorral kapcsolatos hibák észlelésében, amelyek a szerver hosszú távú működése során lépnek fel. Az MCA Helyreállítási funkció a Intel Xeon Skálázható Család processzorain alapuló szerverek hibátűrő képességeinek része, mint például a ThinkSystem szerverportfólió. Ezek a képességek lehetővé teszik a rendszerek számára, hogy tovább működjenek, amikor egy nem javítható hibát észlelnek a rendszerben. Ha nem lennének ezek a képességek, a rendszer összeomlana, és szükség lehet a hardver cseréjére vagy a rendszer újraindítására.

Az MCA Helyreállítás lehetővé teszi az operációs rendszer számára, hogy eldöntse, hogy a hiba helyreállítható-e az operációs rendszer által anélkül, hogy a rendszert leállítaná. Ha a következő előfeltételek teljesülnek:

  • A memória UCE nem végzetes hiba
  • A memóriahiba címe nem a kernel térben található
  • A sérült alkalmazás leállítható a gazda operációs rendszer által.

Az alábbi ábra a rendszerhiba kezelés folyamatát mutatja be Linux operációs rendszerrel.

a rendszerhiba kezelés folyamata Linux operációs rendszerrel

Forrás: lásd az URL-t LP0778 - A Lenovo ThinkSystem szerverek memória RAS funkcióinak bemutatása
Szoftveresen Helyreállítható Akció Kötelező (SRAR): Kétféle ilyen hiba létezik, amelyeket az Adat Cache Egység (DCU) és az Utasítás Kivételi Egység (IFU) észlel, amelyet MCA helyreállítási végrehajtási útnak is neveznek.
Szoftveresen Helyreállítható Akció Opcionális (SRAO): Kétféle ilyen hiba létezik, amelyeket a memóriajárőr észlel, és az Utolsó Szintű Cache (LLC) explicit írási tranzakciója is, amelyet MCA helyreállítási nem végrehajtási útnak is neveznek.

Amikor SRAR/SRAO történik, az MCA helyreállítás aktiválódik. Ha a kernel sikeresen helyre tudja állítani a memóriát, amely nem javítható hibát okozott, az alkalmazás vagy a virtuális gép leállításával, és a rendszernek online kell maradnia, ha nem észlelnek további nem javítható hibákat.

SRAR/SRAO virtuális gép

Forrás: Mérnöki gyakorlat a szerver összeomlási arányának csökkentésére DDR nem javítható hibák (UCE) esetén a hiperskálás felhő adatközpontban, lásd az URL-t: Intel® Mérnöki gyakorlat a szerver összeomlási arányának csökkentésére

Címkét Tartomány Tükrözés / Részleges Memória Tükrözés

A Címkét Tartomány Tükrözés egy új memória RAS funkció a Intel Xeon Skálázható Család platformon, amely lehetővé teszi a redundanciához dedikált memória mennyiségének pontosabb kiválasztását. A memória tükrözési megvalósítások (teljes tükör mód vagy címkét tartomány mód) úgy lettek tervezve, hogy lehetővé tegyék a kritikus memória régiók tükrözését a fizikai memória stabilitásának növelése érdekében. A tükrözött memória átlátható az operációs rendszer és az alkalmazások számára. Az alábbi illusztráció a Címkét Tartomány Tükrözést mutatja be a gyakorlatban, ahol a zöld címkét tartomány és a narancssárga címkét tartomány tükörben van.

pic10

A Intel Xeon Sliver SKU-k és azok felett akár két tükör tartományt is támogatnak egy foglalatban, egy tükör tartományt integrált Memória Vezérlőnként (iMC). A tartományt a Target Address Decoder 0 (TAD0) regiszterben programozott érték határozza meg a szerver számára. A TAD0 meghatározza az elsődleges és másodlagos tükör tartományok méretét. A másodlagos tükör tartomány a redundancia számára van fenntartva, és nem számít bele a teljes memória méretébe. A Címkét Tartomány Tükrözés engedélyezéséhez van egy Vezérlő és Állapot Regiszter (CSR) bit, amely lehetővé teszi a TAD0 használatát a tükrözéshez.

A Címkét Tartomány Tükrözés a következő előnyöket kínálja:

  • További részletességet biztosít a memória tükrözéshez azáltal, hogy lehetővé teszi a firmware vagy az operációs rendszer számára, hogy meghatározzon egy memória címek tartományt, amelyet tükrözni kell, míg a foglalat többi memóriája nem tükör módban marad.
  • Csökkenti a redundancia számára fenntartott memória mennyiségét.
  • Javítja a magas rendelkezésre állást, elkerülve a nem javítható hibákat az Operációs Rendszer kernel memóriájában azáltal, hogy az összes kernel memóriát a tükrözött memóriából allokálja.

A Címkét Tartomány Tükrözésnek a következő operációs rendszer és firmware követelményei vannak:

  • A rendszer indítási módját 'UEFI Boot'-ra kell állítani.
  • Az operációs rendszer támogatása szükséges a Címkét Tartomány Tükrözés teljes kihasználásához.
  • Az operációs rendszernek tudomása kell legyen a tükrözött régióról.
  • Függőség a rendszer firmware-jétől a Címkét Tartomány Tükrözés konfigurálásához:
    • UEFI beállítás használata a Címkét Tartomány Tükrözés engedélyezésére rögzített tükörmérettel. A ThinkSystems, amelyeket Gen 1, Gen 2 és Gen 3 Intel Xeon processzorokkal szállítottak, támogatják a tükör mód konfigurálását az előzőleg említett UEFI Beállítási Oldalon.
    • Az operációs rendszer beállító parancsainak használata, mint például “efibootmgr és kernelcore=mirror” a Címkét Tartomány Tükrözés konfigurálásához különböző tükörmérettel a firmware-OS interfészen keresztül. A ThinkSystems, amelyeket Gen 1, Gen 2 és Gen 3 Intel Xeon processzorokkal szállítottak, alapvető támogatással rendelkeznek, és tervezik, hogy a jövő generációs platformokon teljes támogatást nyújtsanak, amely lehetővé teszi az operációs rendszer számára, hogy a memória % -át tükrözésre kérje egyedi igényei alapján.
Dokumentum azonosítója:HT512486
Eredeti közzététel dátuma:06/07/2021
Utolsó módosítás dátuma:04/07/2025