कृपया ध्यान दें: इस वेबसाइट में एक एक्सेसिबिलिटी सिस्टम शामिल है। स्क्रीन रीडर का उपयोग करने वाले नेत्रहीनों के लिए वेबसाइट को एडजस्ट करने के लिए Control-F11 दबाएं; एक्सेसिबिलिटी मेन्यू खोलने के लिए कंट्रोल-F10 दबाएं।

Lenovo के सर्वोत्तम प्रथाएँ Intel® अनियोज्य मेमोरी त्रुटि प्रबंधन के लिए Gen 1, Gen 2 या Gen 3 Xeon® स्केलेबल प्रोसेसर के "H" SKU पर

Lenovo के सर्वोत्तम प्रथाएँ Intel® अनियोज्य मेमोरी त्रुटि प्रबंधन के लिए Gen 1, Gen 2 या Gen 3 Xeon® स्केलेबल प्रोसेसर के "H" SKU पर

Lenovo के सर्वोत्तम प्रथाएँ Intel® अनियोज्य मेमोरी त्रुटि प्रबंधन के लिए Gen 1, Gen 2 या Gen 3 Xeon® स्केलेबल प्रोसेसर के "H" SKU पर

यह मशीन द्वारा अनुवादित लेख है, कृपया मूल अंग्रेजी संस्करण देखने के लिए यहाँ क्लिक करें।

विवरण

Lenovo ने 7 वर्षों तक विश्वसनीयता में #1 स्थान प्राप्त किया है, और अपने ग्राहकों को सूचित करना चाहता है कि सभी उद्योग प्रणालियों में कुछ पीढ़ियों के Intel® प्रोसेसर का उपयोग करते समय अंतर्निहित कमी है, जिसने OEM सिस्टम विक्रेताओं के लिए उपलब्ध त्रुटि-चेकिंग और सुधार क्षमताओं को पीढ़ीगत रूप से कम कर दिया है। DDR मेमोरी त्रुटियों और सुधारात्मक मेमोरी त्रुटि हैंडलिंग लॉजिक में आर्किटेक्चरल परिवर्तनों का संयोजन, Gen 1 Xeon® Scalable प्रोसेसर (कोडनेम "Skylake"), Gen 2 Xeon® Scalable प्रोसेसर (कोडनेम "Cascade Lake") और Gen 3 Xeon® Scalable प्रोसेसर (कोडनेम "Cooper Lake-6") पर रनटाइम अनसुधारित मेमोरी त्रुटियों (UCE) की उच्च दर का परिणाम हो सकता है, जो पिछले पीढ़ियों के हार्डवेयर की तुलना में है। यह एकल डिवाइस डेटा सुधार (SDDC) में लागू परिवर्तनों के कारण है। SDDC सभी प्लेटफार्मों पर उपलब्ध एक मौलिक Intel RAS (विश्वसनीयता, उपलब्धता, सेवा योग्यता) विशेषता है। इन आर्किटेक्चरल परिवर्तनों और मेमोरी DIMM त्रुटियों के परिणामस्वरूप, पिछले पीढ़ी के प्रोसेसर और Xeon® Scalable प्रोसेसर परिवार की पीढ़ी के बीच त्रुटियों के सुधार में अंतर है। Intel® से अधिक जानकारी के लिए कृपया देखें मैं 1st, 2nd, या 3rd जनरेशन Intel® Xeon® Scalable प्रोसेसर के साथ मेमोरी हैंडलिंग में सुधार कैसे करूं. यह लेख DDR अनसुधारित त्रुटियों को कम करने की प्रमुख रणनीतियों पर ध्यान केंद्रित करेगा, जो कभी-कभी अनुप्रयोग समाप्ति या सर्वर क्रैश का परिणाम बनती हैं।

समस्या को Lenovo ThinkSystem या ThinkAgile उत्पाद द्वारा रिपोर्ट की गई अनसुधारित मेमोरी त्रुटि या मशीन चेक त्रुटि घटनाओं को देखकर पहचाना जा सकता है:

XCC इवेंट लॉग:

FQXSFMA0002M : DIMM [arg1] पर पते [arg2] पर एक अनसुधारित मेमोरी त्रुटि का पता लगाया गया है। [arg3] FQXSFPU0062F : प्रोसेसर [arg1] कोर [arg2] MC बैंक [arg3] में MC स्थिति [arg4], MC पता [arg5], और MC विविध [arg6] के साथ सिस्टम अनसुधारित त्रुटि हुई। FQXSFPU0027N : प्रोसेसर [arg1] कोर [arg2] MC बैंक [arg3] पर MC स्थिति [arg4], MC पता [arg5], और MC विविध [arg6] के साथ सिस्टम अनसुधारित पुनर्प्राप्त करने योग्य त्रुटि हुई। 

(जहां XCC = Lenovo XClarity कंट्रोलर)

नीचे प्रत्येक पंक्ति शीर्षक के दाईं ओर तीर पर क्लिक करके अतिरिक्त जानकारी के साथ विस्तारित होगी
ड्रॉप डाउन तीर

लागू सिस्टम

सिस्टम निम्नलिखित में से कोई भी Lenovo सर्वर हो सकता है:

सर्वोत्तम प्रथाएँ

ThinkSystem फर्मवेयर RAS सुविधाओं का समर्थन करता है जो Intel®Scalable प्रोसेसर द्वारा प्रदान की जाती हैं, जो DDR अनसुधारित त्रुटियों की आवृत्ति को काफी कम कर सकती हैं। इसलिए, सिस्टम प्रशासकों और ऑपरेटरों को Gen1/Gen2/Gen3 Intel® Xeon® Scalable प्रोसेसर द्वारा समर्थित RAS सुविधाओं का लाभ उठाना चाहिए और LXPM में उपलब्ध नियमित ऑन-टारगेट मेमोरी परीक्षण की योजना बनानी चाहिए। इस लेख में उल्लिखित सर्वोत्तम प्रथाएँ भविष्य की CPU पीढ़ियों पर लागू होनी चाहिए जो Gen 3 Xeon®Scalable प्रोसेसर (कोडनेम "Cooper Lake-6") के साथ DDR4 पीढ़ी से परे मेमोरी का समर्थन करेंगी।

कोड करेंट बनाए रखें

उत्पादन ThinkSystem सर्वरों को 2021 की पहली तिमाही में जारी फर्मवेयर स्टैक में अपडेट करें या उच्चतर, जो सुनिश्चित करेगा कि सभी ज्ञात Intel और Lenovo फर्मवेयर सुधार लागू किए गए हैं। यह Lenovo समर्थन पोर्टल यूआरएल पर नेविगेट करके किया जा सकता है: https://support.lenovo.com और उपयुक्त उत्पाद समूह, सिस्टम का प्रकार, उत्पाद का नाम, उत्पाद मशीन प्रकार, और ऑपरेटिंग सिस्टम का चयन करके।

ऑन-टारगेट मेमोरी स्क्रीनिंग की योजना बनाएं

कम से कम हर 6 महीने में LXPM उन्नत मेमोरी परीक्षण चलाने की योजना बनाएं और नए सिस्टम तैनाती या सिस्टम रखरखाव से पहले, देखें URL: HT511056 - LXPM उन्नत मेमोरी परीक्षण DIMM त्रुटियों को कम करता है. इस विकल्प पर विचार करते समय निम्नलिखित चरणों का उपयोग किया जाना चाहिए।

amt

  1. सिस्टम फर्मवेयर (UEFI & BMC/XCC) को अद्यतित रखें: सर्वोत्तम परिणामों के लिए, सुनिश्चित करें कि लक्षित सिस्टम नवीनतम फर्मवेयर या 2021 की पहली तिमाही के बाद जारी फर्मवेयर स्टैक चला रहा है।
    • सिस्टम जानकारी की जांच करें POST के दौरान या सिस्टम के फर्मवेयर जानकारी की जांच करने के लिए सिस्टम सारांश का चयन करें:
      post

      sys_info
       
  2. कमांड लाइन इंटरफेस (CLI) विधि का उपयोग करते समय नीचे दिए गए कमांड का संदर्भ लें:

    AMT सक्षम करने के लिए, चलाएँ:

    OneCli.exe config set Memory.MemoryTest Enable --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0xF0000 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    

    AMT को अक्षम करने के लिए, चलाएँ:

    OneCli.exe config set Memory.MemoryTest Automatic --imm xcc_user_id:xcc_password@xcc_external_ip
    OneCli.exe config set Memory.AdvMemTestOptions 0 --override --imm xcc_user_id:xcc_password@xcc_external_ip
    
  3. ग्राफिकल यूजर इंटरफेस (GUI) का उपयोग करते समय सर्वर को चालू करें और F1 दबाएँ ThinkSystem UEFI सेटअप मेनू, XClarity प्रावधान प्रबंधक में प्रवेश करने के लिए।
    F1

    sys_info
     
  4. डायग्नोस्टिक्स विकल्प का चयन करें बाईं ओर के मेनू से।
    diags
     
  5. रन डायग्नोस्टिक्स का चयन करें डायग्नोस्टिक्स स्क्रीन से।
    run_diags
     
  6. मेमोरी परीक्षण का चयन करें डैशबोर्ड से।
    sele_mem
     
  7. उन्नत मेमोरी परीक्षण का चयन करें मेमोरी परीक्षण मेनू से।
    amt

    amt_run_diags
     
  8. जब उन्नत मेमोरी परीक्षण (AMT) का चयन किया जाता है, तो सिस्टम पुनः आरंभ होगा, और मेमोरी परीक्षण UEFI POST के दौरान चलेगा। यह परीक्षण निर्माण स्तर के परीक्षण के बहुत समान है और एक पूर्ण परीक्षण चक्र पूरा होने तक इसे अक्षम नहीं किया जा सकता है। परीक्षण संचालन के मध्य में सिस्टम को पुनः आरंभ करने से मेमोरी परीक्षण को शुरू से फिर से शुरू किया जाएगा जब तक CMOS बैटरी हटा नहीं दी जाती। सिस्टम डायग्नोस्टिक्स पृष्ठ पर लौटेगा और ग्राफिकल सिस्टम सेटअप में होने पर सिस्टम लॉग को सहेजने के लिए एक इंटरफेस प्रदान करेगा।
    amt_in_progress
     
  9. परीक्षण पूरा करने के लिए आवश्यक समय सिस्टम से भिन्न होता है। परीक्षण पूरा होने के बाद, सिस्टम LXPM में मेमोरी परीक्षण पृष्ठ पर लौटेगा जिसमें लॉग फ़ाइल को सहेजने के लिए सिस्टम में USB ड्राइव डालने के लिए एक संकेत होगा। सिस्टम में USB ड्राइव डालें और जारी रखने के लिए Retry पर क्लिक करें. 
     
  10. यदि कोई उपयोगकर्ता परीक्षण लॉग को सहेजने के विकल्प को बायपास करना चाहता है, तो F1 सिस्टम सेटअप को टेक्स्ट मोड में चलाने के लिए कॉन्फ़िगर करना होगा।

    AMT सक्षम/अक्षम करने के लिए रेडफिश कमांड

    {
        "Attributes": {
            "Memory_MemoryTest": "Enabled",  
            "Memory_AdvMemTestOptions": 983040 
        }
    }
    

    नोट: अधिक विवरण के लिए कृपया देखें XeonBased ThinkSystem सर्वरों पर उन्नत मेमोरी परीक्षण.

मशीन चेक रिकवरी (MCA) और स्थानीय मशीन चेक (LMCE) रिकवरी सक्षम करें

MCA रिकवरी OS को यह तय करने की अनुमति देती है कि क्या त्रुटि को OS द्वारा ठीक किया जा सकता है बिना सिस्टम को नीचे लाए, इस RAS सुविधा के बारे में अधिक जानकारी के लिए कृपया विवरण अनुभाग देखें। MCA रिकवरी पर अधिक विस्तृत जानकारी के लिए कृपया अतिरिक्त जानकारी अनुभाग देखें।

इस विकल्प पर विचार करते समय निम्नलिखित चरणों का उपयोग किया जाना चाहिए।

  1. CLI विधि का उपयोग करते समय “AdvancedRAS.MachineCheckRecovery=Enable” का चयन करें। यह सुविधा UEFI सेटअप में डिफ़ॉल्ट रूप से सक्षम है।
  2. GUI विधि का उपयोग करते समय:
    1. सर्वर को चालू करें।
    2. सिस्टम सेटअप, LXPM में प्रवेश करने के लिए F1  दबाएँ।
      F1
       
    3. बाईं ओर के नेविगेशन मेनू से सिस्टम सेटिंग्स रिकवरी और RAS का चयन करें जैसा कि नीचे दिखाया गया है।
      rec_ras
       
    4. उन्नत RAS का चयन करें।
      adv_ras
       
    5. मशीन चेक रिकवरी को सक्षम करें।
      enable_ras
       

नोट: MCA रिकवरी और स्थानीय मशीन चेक (LMCE) रिकवरी ऑपरेटिंग सिस्टम समर्थन पर निर्भर करती है, इसलिए MCA और LMCE क्षमता के लिए अपने OS प्रदाता से परामर्श करें क्योंकि प्रत्येक ऑपरेटिंग सिस्टम विक्रेता RAS सुविधाओं को अपने स्वयं के रिलीज़ चक्रों का उपयोग करके अपनाता है। Lenovo आधारित प्लेटफ़ॉर्म फर्मवेयर डिफ़ॉल्ट रूप से LMCE आधारित रिकवरी सक्षम करता है, लेकिन यह सेटिंग UEFI सेटअप में उपयोगकर्ता स्थान पर प्रदर्शित नहीं होती है। LMCE के MCE पर लाभों पर निम्नलिखित पेपर में चर्चा की गई है: Linux में स्थानीय मशीन चेक अपवादों को संभालना.

Windows: Windows RAS सुविधाओं का उपयोग कैसे करता है, इसके विस्तृत विवरण के लिए Windows हार्डवेयर त्रुटि आर्किटेक्चर (WHEA) डिज़ाइन गाइड देखें। ऑपरेटिंग सिस्टम द्वारा समर्थित RAS सुविधाओं की सूची के लिए “अतिरिक्त जानकारी” अनुभाग देखें।

VMware: मशीन चेक रिकवरी ESXi 5 रिलीज़ और उच्चतर में कर्नेल द्वारा समर्थित है। ऑपरेटिंग सिस्टम द्वारा समर्थित RAS सुविधाओं की सूची के लिए “अतिरिक्त जानकारी” अनुभाग देखें।

इसके अलावा, उपयोगकर्ता को स्थानीय मशीन चेक (LMCE) आधारित रिकवरी का लाभ उठाना चाहिए जो ESXi 7.0 संस्करण में डिफ़ॉल्ट रूप से सक्षम है, देखें Lenovo ThinkSystem सर्वर Intel® Optane™ DC स्थायी मेमोरी मॉड्यूल समर्थन के साथ

SR850P और SR850 के लिए, ज्ञात हार्डवेयर सीमा के कारण, स्थानीय मशीन चेक त्रुटि रिकवरी का समर्थन करने के लिए “useLMCE” कर्नेल बूट फ्लैग को सक्षम करना आवश्यक है ESXi 6.7 U2 और उच्चतर संस्करणों के साथ।

  • ESXi 6.7 U2 सिस्टम पर स्थानीय MCE रिकवरी सक्षम करने के लिए:
    ESXi कंसोल में, कर्नेल बूट विकल्प सेट करने के लिए इन दो esxcli कमांडों को चलाएँ, LMCE को TRUE पर सेट करें, फिर परिवर्तनों को प्रभावी करने के लिए सिस्टम को पुनः आरंभ करें।
     esxcli system settings kernel set -s useLMCE -v TRUE
     /sbin/reboot
    
    पुनः आरंभ के बाद, इस कमांड को चलाकर सत्यापित करें कि सेटिंग प्रभावी हुई:
     esxcli system settings kernel list -o “useLMCE

Linux: ऑपरेटिंग सिस्टम द्वारा समर्थित RAS सुविधाओं की सूची के लिए “अतिरिक्त जानकारी” अनुभाग देखें। प्रमुख Linux विक्रेताओं द्वारा MCA रिकवरी के लिए कर्नेल समर्थन सूची:

pic5

स्रोत: हाइपरस्केल क्लाउड डेटा सेंटर में DDR अनकॉरेक्टेबल त्रुटियों (UCE) से सर्वर क्रैश दर को कम करने के लिए इंजीनियरिंग प्रथा, देखें सर्वर क्रैश को कम करने के लिए इंजीनियरिंग प्रथा

पैट्रोल स्क्रब सक्षम रखें

सॉफ्ट त्रुटियों के संचय से बचने के लिए जो अनकॉरेक्टेबल त्रुटि (UCE) में बदल सकती हैं, Intel चिपसेट में एक अंतर्निहित मेमोरी स्क्रबिंग इंजन है। यह प्रत्येक DDR मेमोरी स्थान से डेटा पढ़ता है और त्रुटि-सुधार कोड (ECC) के साथ बिट त्रुटियों (यदि कोई हो) को ठीक करता है, फिर सही डेटा को उसी स्थान पर वापस लिखता है। पैट्रोल स्क्रबिंग 24 घंटे के अंतराल के लिए सेट की गई है जहां इस अवधि के दौरान प्रत्येक पते की जांच की जाती है।

  • CLI विधि का उपयोग करते समय “Memory.PatrolScrub=Enable” का चयन करें। यह सुविधा UEFI सेटअप में डिफ़ॉल्ट रूप से सक्षम है।

कोल्ड बूट फास्ट को अक्षम करें

कोल्ड बूट फास्ट को अक्षम करके प्रत्येक पुनः आरंभ पर मेमोरी प्रशिक्षण को मजबूर करें, इससे POST के दौरान सिस्टम बूट समय बढ़ जाएगा। कोल्ड बूट फास्ट का उद्देश्य यह है कि यदि पिछले 90 दिनों में कोई कॉन्फ़िगरेशन परिवर्तन नहीं पाया गया है तो मेमोरी प्रशिक्षण को छोड़ना है, जो सिस्टम बूट समय में सुधार करता है। कोल्ड बूट फास्ट को अक्षम करने से मेमोरी इंटरफेस का पुनः प्रशिक्षण संभव होता है, जो पर्यावरणीय परिस्थितियों में किसी भी महत्वपूर्ण परिवर्तनों के लिए मुआवजा देता है।

  • CLI विधि का उपयोग करते समय “Memory.ColdBootFast=Disable” का चयन करें।
  • यह सुविधा UEFI सेटअप में डिफ़ॉल्ट रूप से सक्षम है।

पोस्ट पैकेज मरम्मत का लाभ उठाएं

यह एक उद्योग द्वारा संचालित सुविधा है जिसे JEDEC द्वारा परिभाषित किया गया है ताकि बूट समय पोस्ट पैकेज मरम्मत (PPR) को सक्षम किया जा सके ताकि एक पंक्ति को प्रतिस्थापित किया जा सके, जो कि DRAM में दोषपूर्ण मानी जाती है। इस सुविधा का उद्देश्य खराब सेल की उपस्थिति के कारण क्षेत्र में DIMM प्रतिस्थापन को कम करना है। रनटाइम के दौरान, एक DIMM जो सुधार योग्य दोषों का अनुभव कर रहा है, उसे अगले बूट चक्र पर PPR करने के लिए निर्धारित किया जा सकता है। DIMM के भीतर दोष का अनुभव करने वाला DRAM, उसी DRAM के भीतर एक स्पेयर पंक्ति द्वारा आंतरिक रूप से प्रतिस्थापित किया जाएगा। यह PPR सुधारात्मक फ्यूज़िंग प्रक्रिया स्थायी है।

उदाहरण के लिए, यदि आपके सिस्टम ने रनटाइम PFA को सक्रिय किया, तो अगली पुनः आरंभ चक्र पर, UEFI मरम्मत करने का प्रयास करेगा। यह घटना लॉग में “स्व-सुधार” संदेश द्वारा संकेतित किया जाएगा, और पूर्ण होने के बाद, PFA को निष्क्रिय कर दिया जाएगा।

  • यह सुविधा UEFI सेटअप में डिफ़ॉल्ट रूप से सक्षम है .

सिस्टम ऑपरेटिंग मोड को अधिकतम प्रदर्शन पर सेट करें

कुछ परिस्थितियों में, यह देखा गया है कि सिस्टम UEFI और vSphere क्लाइंट में पावर प्रबंधन नीतियों को निष्क्रिय करने से अस्थायी 'अनकॉरेक्टेबल बस त्रुटियों' या सिस्टम रिबूट और मेमोरी त्रुटियों का समाधान हुआ है।

  • CLI विधि का उपयोग करते समय “OperatingModes.ChooseOperatingMode=Maximum Performance" का चयन करें।
  • CLI विधि का उपयोग करके अधिकतम प्रदर्शन सक्षम करने के लिए, चलाएँ:
    OneCli.exe config set OperatingModes.ChooseOperatingMode "Maximum Performance" --imm xcc_user_id:xcc_password@xcc_external_ip

संदर्भ के लिए देखें VMware पर सिस्टम ट्यूनिंग x86 सर्वरों के लिए और ThinkSystem, देखें VMware पर सिस्टम ट्यूनिंग x86 सर्वरों के लिए और ThinkSystem
संदर्भ के लिए देखें अनुशंसित UEFI सेटिंग्स - Lenovo ThinkAgile HX सिस्टम, देखें URL: अनुशंसित UEFI सेटिंग्स

पता रेंज मिररिंग / आंशिक मेमोरी मिररिंग सक्षम करें

पता रेंज मिररिंग एक RAS विशेषता है जो Intel Xeon स्केलेबल परिवार प्लेटफार्मों पर उपलब्ध है, जो यह नियंत्रित करने की अनुमति देती है कि कितनी मेमोरी पुनरावृत्ति के लिए आवंटित की जाती है, अतिरिक्त जानकारी के लिए विवरण अनुभाग देखें। इस विकल्प पर विचार करते समय निम्नलिखित चरणों का उपयोग किया जाना चाहिए। पता रेंज मिररिंग पर अधिक विस्तृत जानकारी के लिए कृपया अतिरिक्त जानकारी अनुभाग देखें।

  1. CLI विधि का उपयोग करते समय “Memory.MirrorMode=Partial”, “Memory.Mirrorbelow4GB=Enable” का चयन करें
  2. जब पता रेंज मिररिंग सक्षम होती है, तो मेमोरी सामग्री को विभाजन में दूरस्थ DIMM पर डुप्लिकेट किया जाएगा। इसका मतलब है कि सभी सिस्टम मेमोरी ऑपरेटिंग सिस्टम के लिए उपलब्ध नहीं होगी। उदाहरण के लिए, आंशिक मिररिंग सक्षम होने पर UEFI प्रति भौतिक प्रोसेसर मिरर के लिए 36GB की निश्चित मात्रा की मेमोरी समर्पित करेगा।
  3. मेमोरी पुनरावृत्ति के लिए आंशिक मिरर मोड सक्षम करने के लिए नीचे दिए गए चरणों का पालन करें:
    1. सर्वर को चालू करें।
    2. F1 कुंजी दबाएँ LXPM में प्रवेश करने के लिए:
      F1
       
    3. बाएँ नेविगेशन मेनू में UEFI सेटअप का चयन करें।
      uefi_setup
       
    4. सिस्टम सेटिंग्स का चयन करें।
      sys_setting
       
    5. केंद्र पैन में मेमोरी का चयन करें।
      memory
       
    6. नीचे स्क्रॉल करें और मिरर कॉन्फ़िगरेशन का चयन करें।
      mem_config
       
    7. मिरर मोड को आंशिक पर सेट करें और सुनिश्चित करें कि 4 जीबी के नीचे मिरर सक्षम है ताकि मेमोरी मिररिंग में निम्न पते की रेंज शामिल हो। 
      enable_mirror_mem_below_4gb
       

      नोट: 4GB के नीचे मिरर MM कॉन्फ़िग बेस के साथ साझा किया गया है, जिसके लिए डिफ़ॉल्ट सेटिंग 3 GB है। इस उदाहरण में, हमने 4 GB के नीचे मिरर सक्षम किया।

    8. कॉन्फ़िगरेशन को सहेजें और UEFI सेटअप मेनू से बाहर निकलें।
  4. मेमोरी मिरर की मेमोरी जानकारी सिस्टम बूट स्क्रीन पर दिखाई जाती है। उपयोगी मेमोरी क्षमता को UEFI में सेट की गई कॉन्फ़िगरेशन के अनुसार कम किया जाता है। नीचे चित्र में बाईं ओर मेमोरी स्वतंत्र मोड और दाईं ओर पता रेंज मिररिंग मोड दिखाया गया है, जहां 1536G मेमोरी को उपयोगी क्षमता 1461GB = 1536(कुल)-36(CPU1)-36(CPU2)-3(MM कॉन्फ़िग) में घटा दिया गया है।
    pic7
     
  5. नोट:
  6. जब UEFI में आंशिक मेमोरी मिररिंग सेट किया जाता है, तो कोई “esxcli hardware memory get” का उपयोग करके सत्यापित कर सकता है कि विश्वसनीय मेमोरी का उपयोग किया गया है और यह '0' बाइट्स से अधिक है।
    नीचे दिए गए उदाहरण को देखें:
    पता रेंज आंशिक मेमोरी मिररिंग चालू करने से पहले: [root@h2:~] esxcli hardware memory get Physical Memory: 549657530368 Bytes Reliable Memory: 0 Bytes NUMA Node Count: 2
    पता रेंज आंशिक मेमोरी मिररिंग चालू करने के बाद: [root@h2:~] esxcli hardware memory get Physical Memory: 480938061824 Bytes Reliable Memory: 68619579392 Bytes NUMA Node Count: 2

अतिरिक्त जानकारी

ऑपरेटिंग सिस्टम द्वारा समर्थित RAS विशेषताएँ*

नीचे सूचीबद्ध तालिकाओं का एक सेट दिखाता है कि कब ऑपरेटिंग सिस्टम विक्रेताओं ने व्यक्तिगत RAS विशेषताओं को पहली बार अपनाया है, जिन्हें सिस्टम स्थिरता और हार्डवेयर त्रुटियों के खिलाफ लचीलापन में सुधार के लिए उपयोग किया जा सकता है।

* नीचे की तालिकाएँ सभी प्रमुख ऑपरेटिंग सिस्टम विक्रेताओं को सूचीबद्ध करती हैं।

Windows सर्वर पर समर्थित RAS विशेषताएँ WS2016 WS2019 WS2022 सभी भविष्य के संस्करण
MCA2.0 रिकवरी-कार्य निष्पादन पथ X X X X
MCA2.0 रिकवरी-गैर-कार्य निष्पादन पथ X X X X
स्थानीय मशीन (LMCE) आधारित रिकवरी-कार्य निष्पादन   X X X
पता रेंज/आंशिक मिररिंग     X X

 

VMware ESXi पर समर्थित RAS विशेषताएँ 5 GA 5.5 6 GA 6.5-6.7 (सभी) 7.0 (सभी) सभी भविष्य के संस्करण
MCA2.0 रिकवरी-कार्य निष्पादन पथ X X X X X X
MCA2.0 रिकवरी-गैर-कार्य निष्पादन पथ X X X X X X
स्थानीय मशीन (LMCE) आधारित रिकवरी-कार्य निष्पादन       X X X
पता रेंज/आंशिक मिररिंग   X X X X X

 

RHEL पर समर्थित RAS विशेषताएँ 7.2 7.3 7.4 (सभी) 8.x (सभी) 9.x (सभी) सभी भविष्य के संस्करण
MCA2.0 रिकवरी-कार्य निष्पादन पथ X X X X X X
MCA2.0 रिकवरी-गैर-कार्य निष्पादन पथ X X X X X X
स्थानीय मशीन (LMCE) आधारित रिकवरी-कार्य निष्पादन   X X X X X
पता रेंज/आंशिक मिररिंग     X X X X

 

SUSE पर समर्थित RAS विशेषताएँ 11.04 12 GA 12 SP3 12 SP4 (सभी) 15 (सभी) सभी भविष्य के संस्करण
MCA2.0 रिकवरी-कार्य निष्पादन पथ X X X X X X
MCA2.0 रिकवरी-गैर-कार्य निष्पादन पथ X X X X X X
स्थानीय मशीन (LMCE) आधारित रिकवरी-कार्य निष्पादन     X X X X
पता रेंज/आंशिक मिररिंग       X X X

 

Ubuntu पर समर्थित RAS विशेषताएँ 14.04 16.04 18.04 (सभी) 20.04 (सभी) 21.04 (सभी) सभी भविष्य के संस्करण
MCA2.0 रिकवरी-कार्य निष्पादन पथ X X X X X X
MCA2.0 रिकवरी-गैर-कार्य निष्पादन पथ X X X X X X
स्थानीय मशीन (LMCE) आधारित रिकवरी-कार्य निष्पादन   X X X X X
पता रेंज/आंशिक मिररिंग   X X X X X

MCA रिकवरी

नए Intel Xeon Scalable Family प्रोसेसर मशीन चेक आर्किटेक्चर (MCA) रिकवरी तंत्र के आधार पर कुछ मेमोरी त्रुटियों से पुनर्प्राप्ति का समर्थन करते हैं। इसके लिए OS को एक मेमोरी पृष्ठ को "जहरीला" घोषित करना, पृष्ठ से संबंधित प्रक्रियाओं को समाप्त करना और भविष्य में पृष्ठ का उपयोग करने से बचना आवश्यक है। MCA तंत्र का उपयोग मशीन दोष जानकारी का पता लगाने, संकेत देने और रिकॉर्ड करने के लिए किया जाता है। इनमें से कुछ दोष सुधार योग्य हैं, जबकि अन्य सुधार योग्य नहीं हैं। MCA तंत्र CPU डिज़ाइनरों और CPU डिबगर्स को प्रोसेसर विफलताओं का निदान, पृथक और समझने में सहायता करने के लिए बनाया गया है। यह सिस्टम प्रशासकों को अस्थायी और उम्र से संबंधित विफलताओं का पता लगाने में भी मदद करने के लिए है, जो सर्वर के दीर्घकालिक संचालन के दौरान होती हैं। MCA रिकवरी सुविधा Intel Xeon Scalable Family प्रोसेसर पर आधारित सर्वरों की दोष सहिष्णु क्षमताओं का एक हिस्सा है, जैसे कि ThinkSystem सर्वरों का पोर्टफोलियो। ये क्षमताएँ सिस्टम को तब भी कार्यशील रहने की अनुमति देती हैं जब सिस्टम में एक सुधारित त्रुटि का पता लगाया जाता है। यदि ये क्षमताएँ नहीं होतीं, तो सिस्टम क्रैश हो जाता और हार्डवेयर प्रतिस्थापन या सिस्टम रिबूट की आवश्यकता हो सकती थी।

MCA रिकवरी OS को यह तय करने की अनुमति देती है कि क्या त्रुटि को OS द्वारा बिना सिस्टम को बंद किए पुनर्प्राप्त किया जा सकता है। यदि निम्नलिखित पूर्व-शर्तें पूरी होती हैं:

  • मेमोरी UCE गैर-घातक त्रुटि है
  • मेमोरी विफलता का पता कर्नेल स्पेस में नहीं है
  • प्रभावित एप्लिकेशन को होस्ट OS द्वारा समाप्त किया जा सकता है।

नीचे चित्रित किया गया है कि लिनक्स ऑपरेटिंग सिस्टम के साथ सिस्टम त्रुटि हैंडलिंग प्रवाह कैसा होता है।

 सिस्टम त्रुटि हैंडलिंग प्रवाह लिनक्स ऑपरेटिंग सिस्टम के साथ

स्रोत: देखें URL LP0778 - Lenovo ThinkSystem सर्वरों की मेमोरी RAS सुविधाओं का प्रदर्शन
सॉफ़्टवेयर पुनर्प्राप्त करने योग्य क्रिया आवश्यक (SRAR): ऐसे दो प्रकार की त्रुटियाँ हैं जो डेटा कैश यूनिट (DCU) द्वारा और इंस्ट्रक्शन फेच यूनिट (IFU) द्वारा पता की जाती हैं, जिसे MCA रिकवरी निष्पादन पथ भी कहा जाता है।
सॉफ़्टवेयर पुनर्प्राप्त करने योग्य क्रिया वैकल्पिक (SRAO): ऐसे दो प्रकार की त्रुटियाँ हैं जो मेमोरी पेट्रोल स्क्रब द्वारा और अंतिम स्तर कैश (LLC) स्पष्ट राइटबैक लेनदेन द्वारा पता की जाती हैं, जिसे MCA रिकवरी गैर-निष्पादन पथ भी कहा जाता है।

जब SRAR/SRAO होता है, तो MCA रिकवरी सक्रिय हो जाएगी। यदि कर्नेल एप्लिकेशन या वर्चुअल मशीन को समाप्त करके सफल पुनर्प्राप्ति कर सकता है जिसने मेमोरी गैर-सुधार योग्य त्रुटि का उपभोग किया और यदि कोई अतिरिक्त गैर-सुधार योग्य त्रुटियाँ नहीं पाई जाती हैं तो सिस्टम ऑनलाइन रहना चाहिए।

SRAR/SRAO वर्चुअल मशीन

स्रोत: हाइपरस्केल क्लाउड डेटा सेंटर में DDR गैर-सुधार योग्य त्रुटियों (UCE) से सर्वर क्रैश दर को कम करने के लिए इंजीनियरिंग प्रथा, देखें URL: Intel® सर्वर क्रैश दर को कम करने के लिए इंजीनियरिंग प्रथा

पता सीमा मिररिंग / आंशिक मेमोरी मिररिंग

पता सीमा मिररिंग Intel Xeon Scalable Family प्लेटफ़ॉर्म पर एक नई मेमोरी RAS सुविधा है जो यह चयन करने में अधिक बारीकी की अनुमति देती है कि कितनी मेमोरी पुनरावृत्ति के लिए समर्पित है। मेमोरी मिररिंग कार्यान्वयन (पूर्ण मिरर मोड या पता सीमा मोड) महत्वपूर्ण मेमोरी क्षेत्रों के मिररिंग की अनुमति देने के लिए डिज़ाइन किए गए हैं ताकि भौतिक मेमोरी की स्थिरता बढ़ सके। मिरर की गई मेमोरी OS और एप्लिकेशनों के लिए पारदर्शी होती है। नीचे एक चित्रण है जो प्रैक्टिस में पता सीमा मिररिंग को दिखा रहा है जहां हरा पता सीमा और नारंगी पता सीमा मिरर में हैं।

pic10

Intel Xeon स्लिवर SKU और उससे ऊपर एक सॉकेट में दो मिरर रेंज तक का समर्थन करते हैं, एक एकीकृत मेमोरी कंट्रोलर (iMC) के लिए एक मिरर रेंज। रेंज उस मान द्वारा परिभाषित की जाती है जो सर्वर के टारगेट एड्रेस डिकोडर 0 (TAD0) रजिस्टर में प्रोग्राम किया गया है। TAD0 प्राथमिक और द्वितीयक मिरर रेंज के आकार को परिभाषित करता है। द्वितीयक मिरर रेंज पुनरावृत्ति के लिए आरक्षित है और कुल मेमोरी आकार में रिपोर्ट नहीं की जाती है। पता सीमा मिररिंग को सक्षम करने के लिए, एक नियंत्रण और स्थिति रजिस्टर (CSR) बिट है जो मिररिंग के लिए TAD0 उपयोग को सक्षम करता है।

पता सीमा मिररिंग निम्नलिखित लाभ प्रदान करता है:

  • मेमोरी मिररिंग को और अधिक बारीकी से प्रदान करता है, जिससे फर्मवेयर या OS को मिरर करने के लिए मेमोरी पते की एक सीमा निर्धारित करने की अनुमति मिलती है, शेष मेमोरी को सॉकेट में गैर-मिरर मोड में छोड़ देती है।
  • पुनरावृत्ति के लिए आरक्षित मेमोरी की मात्रा को कम करता है।
  • उच्च उपलब्धता में सुधार करता है, ऑपरेटिंग सिस्टम के कर्नेल मेमोरी में गैर-सुधार योग्य त्रुटियों से बचने के लिए सभी कर्नेल मेमोरी को मिरर की गई मेमोरी से आवंटित करता है।

पता सीमा मिररिंग के लिए निम्नलिखित OS और फर्मवेयर आवश्यकताएँ हैं:

  • सिस्टम बूट मोड को 'UEFI बूट' पर सेट किया जाना चाहिए।
  • पता सीमा मिररिंग का पूर्ण उपयोग करने के लिए OS समर्थन की आवश्यकता है।
  • OS को मिरर की गई क्षेत्र के बारे में जागरूक होना चाहिए।
  • पता सीमा मिररिंग को कॉन्फ़िगर करने के लिए सिस्टम फर्मवेयर पर निर्भरता:
    • स्थिर मिरर आकार के साथ पता सीमा मिररिंग को सक्षम करने के लिए UEFI सेटअप का उपयोग करना। ThinkSystem Gen 1, Gen 2 और Gen3 Intel Xeon प्रोसेसर के साथ भेजे गए मिरर मोड कॉन्फ़िगरेशन का समर्थन करते हैं जैसा कि पहले बताया गया है।
    • फर्मवेयर-OS इंटरफ़ेस के माध्यम से विभिन्न मिरर आकार के साथ पता सीमा मिररिंग को कॉन्फ़िगर करने के लिए "efibootmgr और kernelcore=mirror" जैसे OS सेटअप कमांड का उपयोग करना। ThinkSystem Gen 1, Gen 2 और Gen3 Intel Xeon प्रोसेसर के साथ भेजे गए बुनियादी समर्थन हैं और भविष्य की पीढ़ी के प्लेटफार्मों में पूर्ण समर्थन होने की योजना है जो OS को इसकी अनूठी आवश्यकताओं के आधार पर मिरर करने के लिए मेमोरी का % अनुरोध करने की अनुमति देगा।
दस्तावेज़ आईडी:HT512486
मूल प्रकाशन तिथि:06/07/2021
अंतिम संशोधन तिथि:04/07/2025