सवाल एचपी प्रोलायंट डीएल 360 जी 7 "पावर एंड थर्मल कैलिब्रेशन" स्क्रीन पर लटकता है


मेरे पास एक नया है एचपी प्रोलायंट डीएल 360 जी 7 प्रणाली जो एक कठिन-से-पुनरुत्पादन समस्या का प्रदर्शन कर रही है। सर्वर यादृच्छिक रूप से लटका है "प्रगति में बिजली और थर्मल अंशांकन ..." के दौरान स्क्रीन फ़ोटाेग्राफ़ी में चित्रों को संपादित करने की प्रकिया। यह आमतौर पर स्थापित ऑपरेटिंग सिस्टम से गर्म-बूट / रीबूट का पालन करता है।

enter image description here

इस बिंदु पर सिस्टम अनिश्चित काल तक चलता है। आईएलओ 3 पावर कंट्रोल के माध्यम से रीसेट या शीत-स्टार्ट जारी करने से सिस्टम बिना घटना के सामान्य रूप से बूट हो जाता है।

जब सिस्टम इस स्थिति में है, आईएलओ 3 इंटरफेस पूरी तरह से सुलभ है और सभी सिस्टम स्वास्थ्य संकेतक ठीक हैं (सभी हरे)। सर्वर पीडीयू से बिजली कनेक्शन के साथ एक जलवायु नियंत्रित डेटा केंद्र में है। परिवेश का तापमान 64 डिग्री फ़ारेनहाइट / 17 डिग्री सेल्सियस है। सिस्टम को 24 घंटे के घटक परीक्षण लूप में कोई विफलता के साथ तैनाती से पहले रखा गया था।

इस सर्वर के लिए प्राथमिक ऑपरेटिंग सिस्टम वीएमवेयर ईएक्सएक्सी 5 है। हमने शुरुआत में 5.0 और बाद में 5.1 बिल्ड की कोशिश की। दोनों को पीएक्सई बूट और किकस्टार्ट के माध्यम से तैनात किया गया था। इसके अलावा, हम baremetal विंडोज और Red Hat Linux अधिष्ठापन के साथ परीक्षण कर रहे हैं।

एचपी प्रोलायंट सिस्टम में BIOS विकल्पों का एक व्यापक सेट है। हमने स्टेटिक उच्च-प्रदर्शन प्रोफ़ाइल के अतिरिक्त डिफ़ॉल्ट सेटिंग्स का प्रयास किया है। मैंने बूट को अक्षम कर दिया है स्प्लैश स्क्रीन और बस उस बिंदु पर एक स्क्रीनिंगशॉट बनाम एक झुर्रियों वाला कर्सर प्राप्त करें। हमने कुछ वीएमवेयर भी कोशिश की है BIOS के लिए "सर्वोत्तम अभ्यास" config। हमने एक देखा है एचपी से सलाहकार जो एक समान मुद्दे की रूपरेखा प्रतीत होता है, लेकिन हमारी विशिष्ट समस्या को ठीक नहीं किया।

हार्डवेयर समस्या पर संदेह करते हुए, विक्रेता ने उसी दिन डिलीवरी के लिए एक समान प्रणाली भेजी थी। नया सर्वर डिस्क के अपवाद के साथ एक पूरी तरह से समान निर्माण था। हमने पुराने सर्वर से डिस्क को नए स्थानांतरित कर दिया। हमने प्रतिस्थापन हार्डवेयर पर एक ही यादृच्छिक बूटिंग समस्या का अनुभव किया।

अब मेरे पास दोनों सर्वर समानांतर में चल रहे हैं। मुद्दा गर्म जूते पर यादृच्छिक रूप से हिट करता है। शीत जूते में समस्या नहीं लगती है। मैं कुछ अधिक गूढ़ BIOS सेटिंग्स को देख रहा हूं जैसे टर्बो बूस्ट को अक्षम करना या पूरी तरह से पावर कैलिब्रेशन फ़ंक्शन को अक्षम करना। मैं इन्हें आजमा सकता हूं, लेकिन उन्हें जरूरी नहीं होना चाहिए।

कोई विचार?

--edit--

सिस्टम विवरण:

  • डीएल 360 जी 7 - 2 एक्स एक्स 5670 हेक्स-कोर सीपीयू
  • 96 जीबी रैम (12 x 8 जीबी लो वोल्टेज डीआईएमएम)
  • 2 एक्स 146 जीबी 15k एसएएस हार्ड ड्राइव
  • 2 एक्स 750W अनावश्यक बिजली की आपूर्ति

ProLiant डीवीडी रिलीज के लिए नवीनतम एचपी सर्विस पैक के रूप में अद्यतित सभी फर्मवेयर।

एचपी को कॉल करना और इंटरवेब्ज़ को ट्राउलिंग करना, मैंने एक खराब आईएलओ 3 इंटरैक्शन का उल्लेख देखा है, लेकिन यह सर्वर के साथ भौतिक कंसोल पर भी होता है। एचपी ने भी बिजली स्रोत का सुझाव दिया, लेकिन यह डेटा सेंटर रैक में है जो सफलतापूर्वक अन्य उत्पादन प्रणालियों को शक्ति देता है।

क्या कोई मौका है कि यह कम वोल्टेज डीआईएमएम और 750W बिजली की आपूर्ति के बीच एक खराब बातचीत हो सकती है? यह सर्वर चाहिए एक समर्थित विन्यास हो।


39
2018-01-10 17:16


मूल


संभावित कारण के रूप में डिस्क को खत्म करने का कोई तरीका? किसी भी मौके पर आप कुछ वैकल्पिक एसएएस या सैटा डिस्क के साथ परीक्षण कर सकते हैं? - ErnieTheGeek
हां, दूसरे सिस्टम में डिस्क के ज्ञात-अच्छे सेट के साथ परीक्षण किया गया। वे समानांतर में चल रहे हैं। - ewwhite
एकमात्र बार मैंने इसे कभी भी देखा है (एक डीएल 360 जी 7) जहां मैं भंडारण प्रदान करने के लिए एक गैर-एचपी कार्ड का उपयोग करने की कोशिश कर रहा था। जब मेरे पास स्मार्टएरे कार्ड और यह दूसरा दोनों था, तो उसने ऐसा किया। जब मैंने बाहर निकाला, तो यह पारित हो गया। यह आपकी समस्या नहीं है, लेकिन मैं जो भी चला रहा हूं उस पर मैं पास हूं। - sysadmin1138♦
शायद कुछ नेटवर्क संबंधित? नेटवर्क से कनेक्ट किए बिना डुप्लिकेट करने का प्रयास करें। - ErnieTheGeek
@TheCleaner डायनामिक पावर कैपिंग अक्षम करना G7 सर्वर पर एक विकल्प नहीं है। यह Gen8 ProLiant श्रृंखला के लिए पेश किया गया था। - ewwhite


जवाब:


तो, एक लाने के बाद तीसरा मिश्रण में प्रणाली, और एक ही मुद्दे का सामना करना, हम पर्यावरण पर सवाल करना शुरू कर दिया। मैंने एक प्रति खोला एचपी प्रोलायंट सर्वर समस्या निवारण गाइड और नीचे दिखाए गए पोस्ट समस्या फ्लोचार्ट मिला।

enter image description here

चार्ट में चरणों के माध्यम से सावधानीपूर्वक चल रहा है, हमने महसूस किया कि सभी सर्वरों में एक स्थिर डेटा केंद्र क्रैश कार्ट से जुड़ा एक केवीएम स्विच था। यह उपभोक्ता-श्रेणी यूएसबी-सक्षम केवीएम था। फ्लोचार्ट में हाइलाइट किए गए नोड के अनुसार, क्या आप अच्छे केवीएम जानते हैं?, मैं निश्चित रूप से जवाब नहीं दे सका।

इसलिए, हमने सर्वर को केवीएम स्विच से अनप्लग किया और स्वचालित बूट चलाया, sleep 300; reboot क्रम में rc.local। सामान्य डीआईएमएम, कम वोल्टेज डीआईएमएम, पीएसयू वाट क्षमता इत्यादि के बावजूद सर्वर के पास कोई समस्या नहीं थी।

यूएसबी केवीएम स्विच के साथ खराब बातचीत का यह परिणाम था। पुण्य के अनुसार कि यह कंसोल था, यह सुनिश्चित करता था कि अगर हम इसकी तलाश में थे तो हम विफलता देखेंगे। स्व पूरा ...


42
2018-01-11 22:46



वाह, यह एक अच्छा है! खुशी है कि तुमने इसे बाहर निकाला। - nedm
पवित्र कौवा प्रश्न और उत्तर के लिए +1। अच्छा कार्य; मैं शायद उस पर नजरअंदाज कर दिया होगा। "अच्छा जाना"? बेशक यह अच्छा ज्ञात है - यह काम कर रहा है, है ना? - mfinni
आपका बहुत बहुत धन्यवाद!!! यह निश्चित रूप से केवीएम था। बस वीडियो को डिस्कनेक्ट करें और मॉनिटर को सीधे प्लग करें और सर्वर सुचारू रूप से फिर से चलता है। ओएस के बाद लोड अप मैंने KVM को वापस प्लग किया। मुझे लगता है कि समस्या तब हुई जब मैंने सर्वर के पीछे केबल्स को गलती से छुआ। सिस्टम रुक गया और केवल इस सलाह पर प्रतिक्रिया करता है।
कोई विचार यह है कि कैसे एक केवीएम इसका कारण बनता है? - TheLQ
@TheLQ एक सस्ते उपभोक्ता-स्तर केवीएम डिवाइस यहां कारण था। कीबोर्ड के साथ भी एक समस्या हो सकती है। - ewwhite