सवाल बिजली की हड़ताल के बाद उपकरण क्षति का आकलन - क्या मुझे और योजना बनाई जानी चाहिए?


मेरे क्लाइंट की साइटों में से एक ने पिछले हफ्ते प्रत्यक्ष बिजली की हिट प्राप्त की (संयोग से शुक्रवार 13 वां!)।

मैं साइट पर रिमोट था, लेकिन किसी के साथ काम करने के लिए, मुझे नुकसान का एक अजीब पैटर्न पता चला। दोनों इंटरनेट लिंक नीचे थे, अधिकांश सर्वर अप्राप्य थे। अधिकांश नुकसान हुआ MDF, लेकिन एक फाइबर से जुड़ा हुआ है ई ड फ एक स्विच स्टैक सदस्य पर बंदरगाहों का 9 0% भी खो दिया। केबलिंग को फिर से वितरित करने और पुन: प्रोग्राम करने के लिए पर्याप्त अतिरिक्त स्विच पोर्ट उपलब्ध थे, लेकिन डाउनटाइम था जब हमने प्रभावित उपकरणों का पीछा किया ..

यह एक नई इमारत / गोदाम सुविधा थी और सर्वर की योजना के डिजाइन में बहुत सारी योजनाएं चली गईं। मुख्य सर्वर कक्ष एक से चलाया जाता है एपीसी स्मार्टयूपीएस आरटी 8000 वीए जेनरेटर द्वारा समर्थित डबल-रूपांतरण ऑनलाइन यूपीएस। सभी जुड़े उपकरणों के लिए उचित बिजली वितरण था। ऑफ़साइट डेटा प्रतिकृति और सिस्टम बैकअप जगह पर थे।

कुल मिलाकर, नुकसान (जिसे मैं जानता हूं) था:

  • एक पर 48-पोर्ट लाइन कार्ड असफल रहा सिस्को 4507 आर-ई चेसिस स्विच
  • 4 सदस्यीय स्टैक में असफल सिस्को 2 9 60 स्विच। (ओह ... ढीला ढेर केबल)
  • सिस्को 2 9 60 स्विच पर कई flaky बंदरगाहों।
  • एचपी प्रोलायंट DL360 जी 7 मदरबोर्ड और बिजली की आपूर्ति।
  • Elfiq वैन लिंक बैलेंसर।
  • एक मल्टीटेक फैक्स मोडेम।
  • वाईमैक्स / फिक्स्ड-वायरलेस इंटरनेट एंटीना और पावर इंजेक्टर।
  • कई पीओई जुड़े डिवाइस (वीओआईपी फोन, सिस्को एयरोनेट एक्सेस पॉइंट, आईपी सुरक्षा कैमरे)

अधिकांश मुद्दों को सिस्को 4507 आर-ई में एक संपूर्ण स्विच ब्लेड खोने के लिए बंधे थे। इसमें कुछ वीएमवेयर एनएफएस नेटवर्किंग और साइट की फ़ायरवॉल के लिए अपलिंक शामिल था। एक वीएमवेयर होस्ट विफल रहा, लेकिन एचए ने स्टोरेज नेटवर्किंग कनेक्टिविटी को बहाल करने के बाद वीएम की देखभाल की। मुझे फंकी पावर स्टेटस को साफ़ करने के लिए कई उपकरणों को रीबूट / पावर चक्र के लिए मजबूर होना पड़ा। तो वसूली का समय छोटा था, लेकिन मुझे उत्सुकता है कि कौन से सबक सीखना चाहिए ...

  • भविष्य में उपकरणों की सुरक्षा के लिए अतिरिक्त सुरक्षा लागू की जानी चाहिए?
  • मुझे वारंटी और प्रतिस्थापन से कैसे संपर्क करना चाहिए? सिस्को और एचपी अनुबंध के तहत वस्तुओं की जगह ले रहे हैं। महंगा Elfiq वैन लिंक balancer एक है अपनी वेबसाइट पर अस्पष्टता मूल रूप से कहा "बहुत बुरा, एक का उपयोग करें नेटवर्क वृद्धि रक्षक"(ऐसा लगता है जैसे वे इस तरह की विफलता की उम्मीद करते हैं)
  • मैं अतीत में बिजली के तूफान के नुकसान का सामना करने के लिए काफी समय से आईटी में रहा हूं, लेकिन बहुत सीमित प्रभाव के साथ; जैसे एक सस्ते पीसी के नेटवर्क इंटरफ़ेस या मिनी स्विच का विनाश।
  • क्या संभावित रूप से फ्लेकी उपकरण का पता लगाने के लिए मैं कुछ और कर सकता हूं, या क्या मुझे बस सतह पर अजीब व्यवहार की प्रतीक्षा करनी है?
  • क्या यह सब सिर्फ दुर्भाग्यपूर्ण था, या कुछ ऐसा जो वास्तव में आपदा वसूली के लिए जिम्मेदार होना चाहिए?

पर्याप्त $$$ के साथ, पर्यावरण में सभी प्रकार की अनावश्यकताएं बनाना संभव है, लेकिन यहां संसाधनों के निवारक / विचारशील डिजाइन और प्रभावी उपयोग का उचित संतुलन क्या है?


55
2017-07-16 13:11


मूल


नीचे कुछ अच्छे तकनीकी उत्तर, लेकिन मेरे अनुभव में, कुछ भी अच्छी बीमा पॉलिसी नहीं है। सचमुच, एक बीमा पॉलिसी। निश्चित रूप से, यह समस्या से बचने में मदद नहीं करता है, और यह ग्राहकों को आप पर चिल्लाने से नहीं रोकता है, लेकिन यह असफल उपकरण को बदलने में मदद करता है जो विक्रेता स्पर्श नहीं करेगा। - Mark Henderson♦
@ मार्क हेन्डर्सन बीमा के माध्यम से आ रहा है ... लेकिन यह 6 सप्ताह हो गया है, और कुछ छोटे मुद्दे अब फसल कर रहे हैं। - ewwhite


जवाब:


कुछ नौकरियां पहले, जिस स्थान के लिए मैं काम कर रहा था, उसके लिए डेटासेंटर में से एक बहुत बड़ा हवाई जहाज से नीचे एक मंजिल था। यह बड़ी, पतली, धातु वस्तु क्षेत्र में सबसे ऊंची चीज थी और हर 18 महीने या उससे भी बिजली के द्वारा मारा गया था। डेटासेंटर स्वयं 1 9 80 के आसपास बनाया गया था, इसलिए मैं इसे सबसे आधुनिक चीज़ नहीं कहूंगा, लेकिन बिजली के नुकसान से निपटने में उन्हें लंबा अनुभव था (सीरियल-कॉमम्स बोर्डों को प्रतिस्थापित करना था हर बार, जो एक परीक्षण है यदि कॉमम्स बोर्ड ऐसे सिस्टम में हैं जिनके पास 10 वर्षों में कोई नया हिस्सा नहीं है)।

एक चीज जिसे पुराने हाथों से लाया गया था वह यह है कि वह सभी नकली प्रवाह किसी भी चीज के आसपास एक रास्ता ढूंढ सकता है, और पुलों में एक बार एक सामान्य जमीन में फैल सकता है। और हवा-अंतराल से पुल कर सकता है। लाइटनिंग एक असाधारण मामला है, जहां सामान्य सुरक्षा मानक आर्कों को रोकने के लिए पर्याप्त नहीं हैं और जहां तक ​​ऊर्जा है, वहां जायेगा। और इसमें बहुत कुछ है। यदि पर्याप्त ऊर्जा है तो यह एक निलंबित-छत ग्रिड से निकल सकता है (शायद सीमेंट में एक इमारत गर्डर के संबंध में एक लूप से निलंबन तारों में से एक लटका दिया जाता है) 2-पोस्ट रैक के शीर्ष तक और वहां से नेटवर्किंग उपहार।

हैकर्स की तरह, आप केवल इतना ही कर सकते हैं। आपके पावर-फेड्स में उन सभी पर ब्रेकर्स होते हैं जो नकली वोल्टेज को दबाते हैं, लेकिन आपका कम वोल्टेज नेटवर्किंग गियर लगभग कभी नहीं करता है और मार्ग के लिए बेहद ऊर्जावान प्रवाह के लिए एक आम पथ का प्रतिनिधित्व करता है।


संभावित रूप से flaky किट का पता लगाना कुछ है जो मुझे पता है कि सिद्धांत में कैसे करना है, लेकिन वास्तव में नहीं। शायद आपकी सबसे अच्छी शर्त है कि संदिग्ध गियर को किसी क्षेत्र में डालें और जानबूझकर कमरे में तापमान को ऑपरेटिंग रेंज के ऊपरी छोर पर लाएं और देखें कि क्या होता है। कुछ परीक्षण चलाएं, उस से बिल्ली को लोड करें। इसे दो दिनों के लिए छोड़ दो। किसी भी पूर्व विद्यमान विद्युतीय क्षति पर जोड़ा गया थर्मल तनाव कुछ समय-बमों को कम कर सकता है।

यह निश्चित रूप से आपके कुछ उपकरणों की उम्र को कम करता है, लेकिन यह पता लगाना कि कौन सा कठिन है। पावर-सप्लाई के अंदर पावर कंडीशनिंग सर्किटरी में समझौता किए गए घटक हो सकते हैं और सर्वर को गंदे शक्ति प्रदान कर सकते हैं, जो कुछ आप केवल उपयोग के माध्यम से पता लगा सकते हैं विशेष उपकरण बिजली आपूर्ति की जांच करने के लिए डिज़ाइन किया गया।


लाइटनिंग स्ट्राइक कुछ ऐसा नहीं है जिसे मैंने डीसी के बाहर एक सुविधा में डीसी के बाहर माना है छत पर विशाल बिजली की छड़ी। आम तौर पर, एक हड़ताल उन चीजों में से एक है जो इतनी बार होती है कि यह 'भगवान के कार्य' के तहत शफल हो जाती है और साथ चली जाती है।

लेकिन ... अब आपके पास एक है। यह दिखाता है कि आपकी सुविधा में कम से कम एक बार सही स्थितियां थीं। अब यह तय करने का समय है कि आपकी सुविधा को सही शर्तों और योजना के अनुसार योजना कैसे दी जाती है। यदि आप केवल बिजली के डीआर प्रभावों के बारे में सोच रहे हैं, तो मुझे लगता है कि यह उचित है।


22
2017-07-18 12:38



मैं कल आकलन करने के लिए ऑनसाइट गया था। गंदा। मैंने चेसिस स्विच की मरम्मत की और कुछ सर्वरों के नुकसान की जांच की। क्या कोई मौका है कि छत पर वाईमैक्स / फिक्स्ड-वायरलेस एंटीना प्रवेश बिंदु था? इसके रास्ते में सबकुछ प्रभावित हुआ था: Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard - ewwhite
लगता है ... बहुत संभावना है। - mfinni
@ewwhite यह बहुत संभावना लगता है। उस पुराने डीसी को मारा जाने पर नुकसान बहुत समान था। - sysadmin1138♦
मैं sysadmin1138 की पोस्ट में कुछ ज्ञान जोड़ना चाहता हूं (क्षमा करें मुझे अभी तक टिप्पणी करने की अनुमति नहीं है, यह नहीं चाहता था कि यह जवाब हो) ... पावर कॉर्ड पर ग्राउंड पिन मानव सुरक्षा के लिए हैं, न कि आपके डिवाइस .. छोटे कार्यालयों में; मैं जमीन से महत्वपूर्ण मशीनें (लकड़ी का बक्सा, रबड़ चटाई) और गैर-ग्राउंड कनेक्टर / एडेप्टर यूपीएस-> वॉल रखता हूं। मुझे यकीन है कि ओएसएए इससे नफरत करता है लेकिन कंप्यूटर इसे प्यार करते हैं। यह भी मदद करता है जब गर्ड डी-एनर्जीकृत और फिर से ऊर्जावान होता है क्योंकि उन सर्ज कुछ भी मार सकते हैं। मैं एक इमारत में रहा हूं जब बहुत, बहुत बड़े लिबर्ट यूपीएस / इन्वर्टर ने उड़ा दिया और उन्हें अपने तकनीक के बारे में समझाया कि कैसे अपरिवर्तनीय स्पाइक्स ( - sirmonkey


मैं इस सवाल के बारे में सोच रहा हूं क्योंकि इसे हाल ही में सामने वाले पृष्ठ के शीर्ष पर संपादित किया गया है।

मैं स्वतंत्र रूप से यह निर्धारित करता हूं कि, sysadmin1138 जैसे लोगों के लिए जिन्हें डीसी छत पर बड़ी बिजली के हमलों के लिए अत्यधिक आकर्षक स्थापित करने वाले प्रतिष्ठानों से निपटना है, एक बड़ी हड़ताल के लिए विशिष्ट आकस्मिक योजना समझ में आता है। लेकिन हम में से अधिकांश के लिए, यह एक ऑफ-ऑफ परिस्थिति है, और मैंने सोचा कि हमारे बाकी के लिए आमतौर पर उपयुक्त उत्तर कुछ मूल्य हो सकता है।

सभी प्रकार की कल्पना करना संभव है फिल्म साजिश के खतरे; परिदृश्य जो निश्चित रूप से हो सकते हैं, अगर वे ऐसा करते हैं तो निर्विवाद रूप से आपके व्यावसायिक संचालन को कम कर देंगे, लेकिन ऐसा होने का कोई कारण नहीं है कि होने वाली किसी भी संभावना की संभावना है। आप चीज की तरह जानते हैं; हवाई जहाज की हड़ताल / बिजली बोल्ट / तेल डिपो पास विस्फोट / कोई अन्य व्यावहारिक-लेकिन-पृष्ठभूमि-जोखिम परिदृश्य।

इनमें से प्रत्येक में एक विशिष्ट शमन योजना है जिसे जगह में रखा जा सकता है, लेकिन मैं सुझाव दूंगा कि - मेरे नियम को ऊपर मॉड्यूल करें - ऐसा करने के लिए कोई व्यावसायिक समझ नहीं आता है। चूंकि श्नीयर उपर्युक्त प्रतिस्पर्धा में इंगित करने की कोशिश कर रहा है, सिर्फ इसलिए कि आप कल्पना कर सकते हैं कि कुछ डरावना घटना होने से यह खतरा नहीं बनता है कि किस विशिष्ट योजना के लिए सार्थक है, या यहां तक ​​कि वांछनीय भी है। क्या कर देता है अच्छी व्यावसायिक समझ एक सामान्य उद्देश्य, अच्छी तरह से प्रलेखित, परीक्षण व्यापार निरंतरता योजना है।

आपको खुद से पूछना चाहिए कि विभिन्न लागतों के लिए व्यावसायिक लागत क्या है (उदाहरण के लिए, 24h, 96h, एक सप्ताह, एक महीने) और प्रत्येक घटना की संभावना को मापने का प्रयास करें। यह एक ईमानदार व्यापार लागत विश्लेषण होना चाहिए, जो व्यवसाय के सभी स्तरों द्वारा खरीदा जाता है। मैंने ऐसी साइट पर काम किया है जहां डाउनटाइम के लिए आमतौर पर स्वीकार्य आंकड़ा £ 5.5 मिलियन / घंटा था (और वह 20 साल पहले था, जब पांच मिलियन क्विड बहुत पैसा था); यह आंकड़ा आम तौर पर सहमत हो गया है बहुत सारे निर्णय बहुत ज्यादा आसान, क्योंकि वे सिर्फ सरल गणित का मामला बन गए।

आपका बजट अनुमानित हानि उस नुकसान के वार्षिक मौके से गुणा किया गया है; अब देखें कि बजट के लिए उस खतरे को कम करने के लिए आप क्या कर सकते हैं।

कुछ मामलों में, यह 24x7 जाने के लिए तैयार ठंडे उपकरण के साथ एक पूर्ण स्टैंडबाय डेटा सेंटर पर चला जाएगा। इसका मतलब एक छोटा सा स्टैंडबाय डाटा सेंटर हो सकता है, ताकि ग्राहक बातचीत बहुत कम टेलीफोन ऑपरेटरों की संख्या और व्यवधान की प्लेसहोल्डर वेबसाइट चेतावनी के साथ जारी रह सके। इसका मतलब यह हो सकता है कि आपकी मुख्य साइट पर दूसरा, अनावश्यक रूप से चलने वाला इंटरनेट कनेक्शन, आवश्यक होने तक ठंडा झूठ बोल रहा हो। इसका मतलब हो सकता है, जैसा कि मार्क हैंडर्सन ऊपर नोट करता है, बीमा (लेकिन बीमा जो व्यापार घाटे को कवर करता है साथ ही वसूली की वास्तविक लागत भी शामिल करता है); यदि आप अपने बीसी बजट को कागज के एक टुकड़े पर खर्च कर सकते हैं जो आपदा की स्थिति में आपकी सभी अपेक्षित लागतों को कवर करेगा, तो कागज के उस टुकड़े को खरीदने का अर्थ हो सकता है - लेकिन कारक को मत भूलना अंडरराइटर की विफलता अपने व्यापार जोखिम योजना में। इसका मतलब यह हो सकता है कि कुछ कोर उपकरणों पर रखरखाव अनुबंधों को बेहद महंगा चार घंटे-से-ठीक करने के लिए अपग्रेड किया जा सकता है। केवल आप ही जान सकते हैं कि आपके व्यवसाय के लिए क्या समझ में आता है।

और एक बार जब आप यह योजना लेंगे, आपको वास्तव में इसका परीक्षण करने की आवश्यकता है (बीमा आधारित लोगों के संभावित अपवाद के साथ)। मैंने एक ऐसी साइट पर काम किया है जहां हमारी पूरी सुविधा से 45 मिनट की ड्राइव तक कटौती करने के लिए तैयार एक पूर्ण लघु-स्तरीय ऑपरेशन शीत साइट थी। जब हमें एक समस्या थी जो कोर नेटवर्क को बंद कर देता था, तो हम ठंडे साइट पर कटौती करने के बजाए इसे लाइव करने की कोशिश कर रहे थे फिर कोर फिक्सिंग और वापस काटने। विफलता-कट-ओवर के पीछे कारणों में से एक यह था कि हम इस बात का कोई वास्तविक विचार नहीं करेंगे कि कटौती करने और कटौती करने में कितना समय लगेगा। इसलिए, कोई भी वास्तव में नहीं जानता था कि कटौती के निर्णय लेने से पहले कटओवर के बिना कितनी देर तक चलने की अनुमति दी जानी चाहिए, इसलिए - काफी समझ में - कटौती का फैसला करने के लिए प्रतिरोध था। 14 घंटे बाद, ऑनलाइन वापस आने के बाद हम घुमाए गए प्रमुख; आउटेज की वजह से नहीं दर असल, लेकिन क्योंकि एक दिन के साथ-साथ आउटेज को कम करने के लिए सुविधा पर बहुत पैसा खर्च किया गया था, जिसने इस तरह के आउटेज के दौरान अप्रयुक्त किया था।

अंतिम बिंदु के रूप में, ध्यान दें कि आपकी व्यावसायिक योजना के आउटसोर्स किए गए घटक हैं नहीं काम करने की गारंटी है। आपका वरिष्ठ प्रबंधन वहां बैठे हो सकता है "अगर हम क्लाउड में सर्वर डालते हैं, तो वे हमेशा वहां रहेंगे, और हम sysadmins को आग लगा सकते हैं"। ऐसा नहीं। बादल किसी और चीज की तरह असफल हो सकते हैं; यदि आपने किसी प्रदाता को महत्वपूर्ण घटक आउटसोर्स किया है, तो आपने जो कुछ किया है, वह उन घटकों की विफलता की संभावनाओं का अनुमान लगाने की आपकी क्षमता को हटा देता है। एसएलए सभी बहुत अच्छे हैं, लेकिन जब तक उन्हें पर्याप्त गैर प्रदर्शन प्रदर्शन दंड का समर्थन नहीं किया जाता है, वे अर्थहीन होते हैं - क्यों आपका प्रदाता उपलब्ध रहने पर अतिरिक्त पैसे खर्च करेगा यदि वे केवल पैसे कमाने और आपके सेवा शुल्क को वापस करने के लिए धनवापसी कर सकते हैं अनुपलब्धता? भरोसेमंद होने के लिए, आपके एसएलए को दंड के साथ आने की जरूरत है जो आउटेज के आपके व्यवसाय के लिए लागत का अनुमान लगाती है। हां, इससे आउटसोर्सिंग की लागत में काफी वृद्धि होगी; और हाँ, यह पूरी तरह से उम्मीद की जा रही है।


7
2017-12-22 09:49



मुझे जोड़ना चाहिए ... इस साइट को बिजली से मारा गया था तीन बार मूल पोस्टिंग के बाद से। इस सुविधा के कई क्षेत्रों में अपर्याप्त / गैर-विद्युतीय विद्युत ग्राउंडिंग के कारण का पता लगाया गया था। हमने ठेकेदारों पर मुकदमा दायर किया और बीमा ने प्रतिस्थापन के बड़े हिस्से का ख्याल रखा। - ewwhite
क्षमा करें, ehhite, मेरे उद्घाटन शर्त आपके लिए भी अधिक स्पष्ट रूप से लागू किया जाना चाहिए; साइट्स में जहां कोई भी जोखिम ऊपर की पृष्ठभूमि है, कम से कम उस जोखिम पर निर्देशित शमन पर विचार करना मुझे समझ में आता है। मेरा जवाब हर किसी के लिए अधिक था, जो आपका प्रश्न पढ़ सकता है और सोचना शुरू कर सकता है "ठीक है, मेरे पास बिजली की योजना नहीं है; शायद मुझे चाहिए"। - MadHatter


यह हमेशा नीचे आता है कि आप कितना खर्च करना चाहते हैं। मेरे पास इस बारे में लंबे समय तक बोलने के लिए पर्याप्त ज्ञान नहीं है, लेकिन मैं एक बड़े फार्मा डेटासेंटर में रहा हूं जिसने बिजली की हड़ताल की है और एक बहुगुणित अनावश्यक स्पाइक गिरफ्तार करने वाला माना जाता है (और सही ढंग से डिजाइन किया गया था , लेकिन गलत लागू किया गया था इसलिए कुछ मिला।)

आपके यूपीएस को रोकने वाले अधिकतम स्पाइक क्या थे? यह एक रेटिंग होना चाहिए। जाहिर है, हड़ताल उस से अधिक होने के लिए पर्याप्त थी, या खराब जमीन की तरह यूपीएस फ़ीड के आसपास लीक कुछ। तो, हो सकता है कि आप अपने पावर डिज़ाइन की समीक्षा करें, यह निर्धारित करें कि एक और स्ट्राइक कितनी संभावना है, डाउनटाइम एक्स की तुलना में उपचार की तुलना की तुलना करें, और शायद एक इलेक्ट्रीशियन यह सुनिश्चित करने के लिए एक अच्छा सर्वेक्षण दे सकता है कि सब कुछ सही ढंग से ग्राउंड हो - और कुछ त्वरित पढ़ने दिखाता है कि सुरक्षा / कोड के लिए ग्राउंडिंग बिजली से होने वाली क्षति की रोकथाम के लिए ग्राउंडिंग के रूप में गहन नहीं है।


6
2017-07-16 13:38



यूपीएस ठीक लग रहा है। इमारत के कई हिस्सों में समस्याएं थीं, लेकिन मुख्य यूपीएस तकनीकी विनिर्देशों राज्य "पूर्णकालिक बहु-ध्रुव शोर फ़िल्टरिंग: 0.3% आईईईई वृद्धि लेट-थ्रू: शून्य क्लैंपिंग प्रतिक्रिया समय: यूएल 1449 से मिलता है" - ewwhite
हां ठीक लगता है। फिर यह संभवतः अन्य माध्यमों से घिरा हुआ है, यदि आपकी मुख्य फ़ीड ठोस है। - mfinni