सवाल एक हार्डवेयर SATA RAID-10 सरणी में एक डिस्क कैसे पूरे सरणी को एक डरावनी ठहराव में ला सकती है?


प्रस्तावना:

मैं एक कोड-बंदर हूं जो मेरी छोटी कंपनी के लिए SysAdmin कर्तव्यों पर तेजी से लिया गया है। मेरा कोड हमारा उत्पाद है, और तेजी से हम सास के रूप में एक ही ऐप प्रदान करते हैं।

लगभग 18 महीने पहले मैंने अपने सर्वरों को प्रीमियम होस्टिंग सेंट्रिक विक्रेता से एक स्तरीय आईवी डेटा सेंटर में एक बेयरबोन रैक पुशर में स्थानांतरित कर दिया था। (सचमुच सड़क पर।) यह सलाह नेटवर्किंग, भंडारण और निगरानी जैसी चीजें खुद को और अधिक कर रही है।

होस्टिंग कंपनी से हमारे लीज्ड सीधा संलग्न स्टोरेज को प्रतिस्थापित करने के लिए, मैंने 9TB दो-नोड NAS बनाया, सुपरमिक्रो चेसिस, 3वेयर RAID कार्ड, उबंटू 10.04, दो दर्जन सैटा डिस्क, डीआरबीडी और पर आधारित एक 9 टीबी दो-नोड NAS बनाया। यह सभी ब्लॉग पोस्ट में प्यार से दस्तावेज है: एक नया 9 टीबी सैटा RAID10 एनएफएसवी 4 NAS का निर्माण और परीक्षण करना NAS: भाग I, भाग द्वितीय तथा भाग III

हम एक कैसिट निगरानी प्रणाली भी स्थापित करते हैं। हाल ही में हम स्मार्ट मूल्यों जैसे अधिक से अधिक डेटा पॉइंट जोड़ रहे हैं।

मैं इसके बिना सब कुछ नहीं कर सका बहुत बढ़िया  boffins  पर  ServerFault। यह एक मजेदार और शैक्षणिक अनुभव रहा है। मेरा मालिक खुश है (हमने $$$ के बाल्टी लोड को बचाया), हमारे ग्राहक खुश हैं (भंडारण लागत नीचे हैं), में खुश हूँ (मज़ा मज़ा मज़ा)

कल तक।

आउटेज और रिकवरी:

दोपहर के भोजन के कुछ समय बाद हमने ऑन-डिमांड स्ट्रीमिंग मीडिया सीएमएस, हमारे आवेदन से सुस्त प्रदर्शन की रिपोर्ट प्राप्त करना शुरू कर दिया। लगभग उसी समय हमारे कैक्टि निगरानी प्रणाली ने ईमेल की बर्फ़ीला तूफ़ान भेजा। अधिक बताए गए अलर्ट्स में से एक Iostat प्रतीक्षा का एक ग्राफ था।

enter image description here

प्रदर्शन इतना खराब हो गया कि पिंगडम ने अधिसूचनाओं को "सर्वर डाउन" भेजना शुरू कर दिया। कुल भार मध्यम था, यातायात स्पाइक नहीं था।

एप्लिकेशन सर्वर पर लॉग इन करने के बाद, NAS के एनएफएस क्लाइंट्स, मैंने पुष्टि की कि बस सब कुछ बेहद अड़चन और बेहद लंबे समय तक आईओ प्रतीक्षा समय का अनुभव कर रहा था। और एक बार जब मैं प्राथमिक NAS नोड पर पहुंच गया, तो समस्या सरणी की फ़ाइल सिस्टम को नेविगेट करने का प्रयास करते समय भी वही देरी स्पष्ट थी।

विफल होने का समय, यह अच्छी तरह से चला गया। 20 मिनट के भीतर सबकुछ बैक अप और पूरी तरह से चलने की पुष्टि की गई थी।

पोस्टमार्टम:

किसी भी और सभी सिस्टम विफलताओं के बाद मैं विफलता का कारण निर्धारित करने के लिए एक पोस्ट-मॉर्टम करता हूं। पहली चीज मैंने एसएसएच को बॉक्स में वापस कर दिया था और लॉग की समीक्षा करना शुरू कर दिया था। यह पूरी तरह से ऑफ़लाइन था। डेटा सेंटर की यात्रा के लिए समय। हार्डवेयर रीसेट, बैकअप एक और चल रहा है।

में /var/syslog मुझे यह डरावनी लग रही प्रविष्टि मिली:

Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 171 to 170
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 16 Currently unreadable (pending) sectors
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 4 Offline uncorrectable sectors
Nov 15 06:49:45 umbilo smartd[2827]: Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
Nov 15 06:49:45 umbilo smartd[2827]: # 1  Short offline       Completed: read failure       90%      6576         3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 2  Short offline       Completed: read failure       90%      6087         3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 3  Short offline       Completed: read failure       10%      5901         656821791
Nov 15 06:49:45 umbilo smartd[2827]: # 4  Short offline       Completed: read failure       90%      5818         651637856
Nov 15 06:49:45 umbilo smartd[2827]:

इसलिए मैं सरणी में डिस्क के लिए कैक्टि ग्राफ की जांच करने गया। यहां हम देखते हैं कि, हाँ, डिस्क 7 दूर हो रहा है जैसे सिसलॉग कहता है कि यह है। लेकिन हम यह भी देखते हैं कि डिस्क 8 का स्मार्ट रीड एरोस उतार-चढ़ाव कर रहा है।

enter image description here

Syslog में डिस्क 8 के बारे में कोई संदेश नहीं है। यह और दिलचस्प है कि डिस्क 8 के लिए उतार-चढ़ाव वाले मूल्य सीधे उच्च IO प्रतीक्षा समय से संबंधित हैं!  मेरी व्याख्या यह है कि:

  • डिस्क 8 में एक अजीब हार्डवेयर गलती का सामना करना पड़ रहा है जिसके परिणामस्वरूप लंबे समय तक ऑपरेशन के समय में अंतर होता है।
  • किसी भी तरह डिस्क पर यह गलती की स्थिति पूरे सरणी को लॉक कर रही है

शायद एक और सटीक या सही वर्णन है, लेकिन शुद्ध परिणाम यह हुआ है कि एक डिस्क पूरे सरणी के प्रदर्शन को प्रभावित कर रही है।

प्रश्न)

  • एक हार्डवेयर SATA RAID-10 सरणी में एक डिस्क कैसे पूरे सरणी को एक डरावनी ठहराव में ला सकती है?
  • क्या मुझे यह सोचने के लिए भरोसा है कि RAID कार्ड को इससे निपटना चाहिए था?
  • मैं एक एकल गलत व्यवहार डिस्क को पूरे सरणी को प्रभावित करने से कैसे रोक सकता हूं?
  • क्या मैं कुछ भूल रहा हूँ?

99
2017-11-16 11:14


मूल


आप से एक और अच्छी तरह से लिखा प्रश्न, +1। हमेशा पढ़ने के लिए एक खुशी (लेकिन दुर्भाग्य से मेरे बोर्ड के ऊपर भी एक विचार है)। - tombull89
@daff: इस सेटअप पर चल रहे बजट खरीदें हमने एचपी से तुलनीय से 66% ठोस बचाया। हमने आपको इस बॉक्स पर साल भर जीवन काल दिया है, इसे लंबे समय तक रहने की आवश्यकता नहीं है। याद रखें कि यह एक भंडारण बॉक्स है, सालाना प्लमेट लागत। - Stu Thompson
3Ware बुरा नहीं है, प्रति से। मैंने डेल सिस्टम पर एक पीआरसी कार्ड से भद्दा व्यवहार किया है, जिसे सभ्य सर्वर हार्डवेयर माना जाता है। 3Ware कार्ड में ऑनबोर्ड बैटरी होनी चाहिए और ऐसे में, इसलिए मुझे निर्णय के बारे में बहुत बुरा नहीं लगेगा। ठीक है, आप एसएएस बनाम सैटा निर्णय के लिए झुका सकते हैं, लेकिन आप डेटा खो नहीं रहे हैं और आपके प्रश्न से आपको लगता है कि आपके पास बैकअप और निगरानी है, इसलिए आप बहुत अच्छा कर रहे हैं :-) - Bart Silverstrim
@StuThompson: निश्चित रूप से बजट जाना और उपभोक्ता हार्डवेयर का उपयोग करना सस्ता है, और अक्सर यह ठीक प्रदर्शन करेगा, खासकर जब, आपके मामले में, इसके पीछे एक अच्छी एचए अवधारणा है। लेकिन ऐसे मामले हैं, जैसा कि आपने दिखाया है, जहां उपभोक्ता हार्डवेयर खराब चीजें होने पर इसे काट नहीं देता है। मैं आपको बहुत गारंटी देता हूं कि एक अच्छा PERC (डेल) या SmartArray (एचपी) नियंत्रक पर एक भी दोषपूर्ण एसएएस डिस्क आपको एक प्रतिस्थापन डिस्क प्राप्त करने के लिए समर्थन कॉल के अलावा कोई समस्या नहीं होती है। हमारे पास उत्पादन में वर्षों से बहुत सारे मृत एसएएस डिस्क हैं लेकिन उन्हें कभी सर्वर नहीं लेना पड़ा। - daff
अधिकांश सैटा डिस्क टीएलईआर (टाइम लिमिटेड त्रुटि रिकवरी) का समर्थन नहीं करती हैं। जब एक सामान्य SATA डिस्क को भौतिक समस्या का सामना करना पड़ता है तो यह डिस्क उपप्रणाली (जिसे आमतौर पर बताया गया है) पर "इस पर काम करते समय पकड़ो" भेजता है। डिस्क तब तक प्रत्येक त्रुटि पर 10-30 सेकंड (आमतौर पर) खर्च करने के लिए आगे बढ़ेगी जब तक कि यह "मैं मर चुका हूं" सीमा तक नहीं पहुंच जाती। एसएएस डिस्क और एसएटीए डिस्क जो टीएलईआर का समर्थन करती हैं उन्हें डिस्क उपप्रणाली को बताने के लिए उनके एचबीए द्वारा कॉन्फ़िगर किया गया है "मुझे कोई समस्या है, मुझे क्या करना चाहिए?" इसलिए एचबीए मूल रूप से उचित कार्रवाई का निर्णय ले सकता है। (ब्रेवटी के लिए सरलीकृत) - Chris S


जवाब:


मुझे महत्वपूर्ण उत्पादन वातावरण में "सैटा का उपयोग न करें" कहने से नफरत है, लेकिन मैंने इस स्थिति को अक्सर देखा है। SATA ड्राइव आमतौर पर आपके द्वारा वर्णित कर्तव्य चक्र के लिए नहीं होती हैं, हालांकि आपने कल्पना की थी विशेष रूप से 24x7 ऑपरेशन के लिए रेटेड ड्राइव आपके सेटअप में मेरा अनुभव यह रहा है कि SATA ड्राइव अप्रत्याशित तरीकों से असफल हो सकती हैं, अक्सर आपके द्वारा किए गए RAID 1 + 0 का उपयोग करते समय भी संपूर्ण स्टोरेज सरणी को प्रभावित करती है। कभी-कभी ड्राइव इस तरह से विफल हो जाती हैं जो पूरी बस को रोक सकती है। ध्यान देने योग्य एक बात यह है कि क्या आप अपने सेटअप में एसएएस विस्तारक का उपयोग कर रहे हैं। इससे ड्राइव विफलता से शेष डिस्क को प्रभावित करने में अंतर हो सकता है।

लेकिन इससे जाने के लिए और अधिक समझ हो सकती है midline / nearline (7200 आरपीएम) एसएएस ड्राइव बनाम सैटा। SATA पर एक छोटा सा मूल्य प्रीमियम है, लेकिन ड्राइव अधिक अनुमानित रूप से संचालित / विफल हो जाएंगी। एसएएस इंटरफ़ेस / प्रोटोकॉल में त्रुटि-सुधार और रिपोर्टिंग SATA सेट से अधिक मजबूत है। तो ड्राइव के साथ भी जिनके यांत्रिकी एक ही हैं, एसएएस प्रोटोकॉल अंतर से आपके ड्राइव विफलता के दौरान अनुभव किए गए दर्द को रोका जा सकता है।


47
2017-11-16 11:48



जैसा कि मैं सिर्फ सवाल लिख रहा था जानता था एसएएस की मेरी पसंद आने वाली थी। : / IOPS और throughput मेरे सेटअप की क्षमताओं के भीतर अच्छी तरह से हैं। लेकिन मैंने कुछ और सूक्ष्म मतभेदों को पूरी तरह से ग्रोक नहीं किया। हमने इस बॉक्स पर 3 साल की उम्र दी है। अगली बार एसएएस का उपयोग करना सुनिश्चित करेगा। - Stu Thompson
हां, अगली बार विचार करना कुछ है। मेरे द्वारा उल्लिखित निकटतम एसएएस ड्राइव एसएटीए से बेहतर प्रदर्शन नहीं करते हैं, लेकिन यह चीजें वसूली और ड्राइव विफलताओं जैसी चीजें हैं जहां एसएएस अधिक प्रबंधनीय है। मेरे पास 6 नियंत्रकों के साथ एक सन फायर x4540 48-ड्राइव सैटा स्टोरेज सिस्टम है, और सर्वर को लॉक करने के लिए अलग-अलग ड्राइव असफलताएं हैं। मुश्किल सबक - ewwhite
मेरा एक अच्छा दोस्त उद्यम भंडारण दुनिया में है। उसने यह सब पढ़ा और कहा "यह लड़का सही है। क्या होता है कि सैटा को पूरी तरह से विफलता को दर्शाने के लिए डिज़ाइन किया गया है और एक अंतःस्थापित व्यक्ति को बस / ओ विफलता को लागू करने की आवश्यकता होगी। आमतौर पर यह कभी नहीं देखा जाता है क्योंकि अधिकांश सैटा कॉन्फ़िगरेशन एक ड्राइव है" - Stu Thompson
@StuThompson क्या आपने बाद में एसएएस के साथ एक नया बॉक्स बनाया है? मुझे आपके अनुभवों के बारे में पढ़ना अच्छा लगेगा। आपके प्रश्न ने मुझे पहले से ही बहुत मदद की है, मैं शायद निकट भविष्य में एक समान बॉक्स का निर्माण करूँगा। - chrishiestand
@chishiestand नहीं, मैंने नहीं किया है। मैंने 13 जनवरी को कंपनी छोड़ी; अगर मैं रुक गया होता तो हम निकटतम रेखा के साथ प्रतिस्थापन बॉक्स बनाते। हां, NAS का अस्तित्व मेरे साथ बहुत निकटता से बंधे थे और डेटा को सेवा प्रदाता के SAN में स्थानांतरित कर दिया गया था। - Stu Thompson


एक डिस्क कैसे सरणी ला सकता है? जवाब यह है कि यह नहीं होना चाहिए, लेकिन यह इस तरह निर्भर करता है कि आउटेज क्या हो रहा है। यदि डिस्क व्यवहार करने के तरीके में मरना था, तो इसे नीचे नहीं लेना चाहिए। लेकिन यह संभव है कि यह "एज केस" तरीके से विफल हो रहा है जिस पर नियंत्रक संभाल नहीं सकता है।

क्या आप यह सोचने के लिए मूर्ख हैं कि ऐसा नहीं होना चाहिए? नहीं, मुझे ऐसा नहीं लगता। इस तरह के एक हार्डवेयर RAID कार्ड को सबसे अधिक मुद्दों को संभालना चाहिए था।

इसे कैसे रोकें? आप इस तरह के अजीब किनारे के मामलों की उम्मीद नहीं कर सकते हैं। यह एक sysadmin होने का हिस्सा है ... लेकिन आप इसे अपने व्यापार को प्रभावित करने के लिए पुनर्प्राप्ति प्रक्रियाओं पर काम कर सकते हैं। इस समय ठीक करने का प्रयास करने का एकमात्र तरीका यह है कि एसएएस अधिक मजबूत है या नहीं, यह देखने के लिए या तो एसएटीए के बजाए एसएएस ड्राइव पर अपने ड्राइव को एक और हार्डवेयर कार्ड (शायद आप जो करना चाहते हैं) को आजमाएं। आप RAID कार्ड के अपने विक्रेता से भी संपर्क कर सकते हैं और उन्हें बता सकते हैं कि क्या हुआ है और देखें कि वे क्या कहते हैं; वे, आखिरकार, एक कंपनी है जिसे जीतने वाले ड्राइव इलेक्ट्रॉनिक्स के इंस और आउट जानने में विशेषज्ञता प्राप्त है। ड्राइव्स के साथ-साथ विश्वसनीयता कैसे काम करती है, इस बारे में अधिक तकनीकी सलाह हो सकती है ... यदि आप सही लोगों से बात करने के लिए जा सकते हैं।

क्या तुमने कुछ याद किया है? यदि आप यह सत्यापित करना चाहते हैं कि ड्राइव में एज-केस विफलता है, तो इसे सरणी से खींचें। सरणी खराब हो जाएगी लेकिन आपके पास अजीब मंदी और त्रुटियों (अपरिवर्तित सरणी स्थिति से अलग) नहीं होनी चाहिए। आप कह रहे हैं कि अभी यह ठीक काम कर रहा प्रतीत होता है, लेकिन यदि डिस्क में त्रुटियां पढ़ने की समस्या है, तो आप ड्राइव को प्रतिस्थापित कर सकते हैं। उच्च क्षमता वाले ड्राइव में कभी-कभी यूआरई त्रुटियां हो सकती हैं (RAID 5, साइड नोट चलाने के लिए सबसे अच्छा कारण नहीं है) जो तब तक प्रदर्शित नहीं होता जब तक कि कोई अन्य ड्राइव विफल न हो जाए। और यदि आप उस ड्राइव से एज-केस व्यवहार का अनुभव कर रहे हैं, तो आप सरणी में अन्य ड्राइव पर माइग्रेट किए गए दूषित डेटा नहीं चाहते हैं।


17
2017-11-16 11:58



हाँ ... हम पहले से ही एक नई प्रतिस्थापन नीति डाल चुके हैं "अगर पढ़ने की त्रुटियों में उतार-चढ़ाव होता है तो यह"। अब जब मैं इसके बारे में सोचता हूं, तो इन ड्राइवों पर हमारी विफलता की काफी उच्च दर है। 18 महीने में 22 में से 4। हममम .... - Stu Thompson
18 महीने में 4 ड्राइव? यह काफी दर है ... जबकि यह ड्राइव में नहीं हो सकता है, यह देखने के लिए एक शीतलन / एयरफ्लो मुद्दा भी हो सकता है। या संभवतः नियंत्रक के साथ कुछ अजीब। बस कुछ विचार ... लॉग पर नजर रखें। यदि आप कार्ड पर वास्तविक काम के साथ 3Ware में किसी से संपर्क करने में सक्षम हैं, न सिर्फ एक स्क्रिप्ट के लिए, तो आप इसे अपने द्वारा चला सकते हैं और देख सकते हैं कि वे क्या कहते हैं। - Bart Silverstrim
उस सेट के आधार पर जहां आप त्रुटियां देख रहे हैं, आप यह भी जांच सकते हैं कि केबल्स के साथ कुछ भी गड़बड़ या सीमांत नहीं है। यदि त्रुटियां एक ही बंदरगाह पर केंद्रित होती हैं, तो आपके पास असफलताओं का एक संयोग सेट हो सकता है। - Bart Silverstrim
मैंने अभी देखा है कि इस बम ड्राइव के लिए स्मार्ट मान ~ 31 डिग्री सेल्सियस पर चल रहे थे, या अन्य सभी ड्राइव की तुलना में एक अच्छा 4 डिग्री सेल्सियस अधिक था। चीजें जो आपको हम्मम्म बनाती हैं .... - Stu Thompson
@DanNeely: 14 ड्राइव्स (11 डेटा, 3 सिस्टम) में से यह एक उच्च अस्थायी वाला एकमात्र था। मुझे काफी यकीन है कि एयरफ्लो अच्छा था, लेकिन कल स्पष्ट रूप से जांच करेगा। - Stu Thompson


मैं एक विशेषज्ञ नहीं हूं, लेकिन मैं RAID नियंत्रकों और भंडारण सरणी के साथ अपने अनुभव के आधार पर अंधेरे में एक जंगली शॉट लेने जा रहा हूं।

डिस्क कई अलग-अलग तरीकों से विफल हो जाते हैं। दुर्भाग्यवश, डिस्क विफल हो सकती हैं, या दोषपूर्ण हो सकती हैं, जिन तरीकों से उनका प्रदर्शन गंभीर रूप से प्रभावित होता है लेकिन RAID नियंत्रक विफलता के रूप में नहीं देखता है।

यदि डिस्क किसी स्पष्ट तरीके से विफल हो जाती है, तो डिस्क से प्रतिक्रिया की कमी का पता लगाने, पूल से इसे हटाने और किसी अधिसूचना को फायर करने पर किसी भी RAID नियंत्रक सॉफ़्टवेयर को बहुत अच्छा होना चाहिए। हालांकि, मेरा अनुमान यह है कि यहां क्या हो रहा है यह है कि डिस्क असामान्य विफलता का सामना कर रही है, जो किसी कारण से नियंत्रक पक्ष में विफलता को ट्रिगर नहीं कर रही है। इसलिए जब नियंत्रक एक लिखने वाली फ्लश या प्रभावित डिस्क से पढ़ रहा है, तो वापस आने में काफी समय लग रहा है और बदले में पूरे आईओ ऑपरेटिंग और इसलिए सरणी लटक रही है। किसी भी कारण से, यह RAID नियंत्रक के लिए "आह, असफल डिस्क" जाने के लिए पर्याप्त नहीं है, संभवतः क्योंकि डेटा अंततः वापस आ रहा है।

मेरी सलाह असफल डिस्क को तुरंत बदलना होगा। उसके बाद, मैं आपके RAID कार्ड के लिए कॉन्फ़िगरेशन पर एक नज़र डालेगा (यह 3ware है, मैंने सोचा था कि वे बहुत अच्छे थे) और पता लगाएं कि यह एक असफल डिस्क को क्या मानता है।

अनुलेख अच्छा विचार कैक्टि में स्मार्ट आयात करना।


10
2017-11-16 11:57



एक बार जब मैं डॉट्स को जोड़ता हूं, तो पहला लगता है कि मैंने डिस्क को सरणी से निकालना था; गर्म छुट्टी भर गई। वह कल रात थी। आज मैंने डिस्क खींच ली और इसे आरएमए किया। अपमानजनक ड्राइव: geekomatic.ch/images/wd-re4-flux-read-error.jpg - Stu Thompson
कारणों में से एक कारण मुझे लगता है कि हर मिशन महत्वपूर्ण प्रणाली को एक कार्ड होना चाहिए जो डेटा स्क्रबिंग करता है। मैंने इसे गिनने के लिए कई बार देखा है, खासकर सैटा एरे पर, हालांकि, उच्च अंत एसएएस डिस्क को नियंत्रक को ट्रिगर किए बिना विफल होने के लिए जाना जाता है। - Jens Ehrich


आपको एंटरप्राइज़ क्लास स्टोरेज डिवाइस की विशेषताओं की आवश्यकता है। विशेष रूप से, डब्ल्यूडी आरई 4 एंटरप्राइज़ ड्राइव में RAID arrays में इस व्यवहार को रोकने के लिए दो सुविधाएं आवश्यक हैं। नीचे सूचीबद्ध पहली तकनीक हार्ड ड्राइव यांत्रिक घटकों पर अनावश्यक वस्त्र पैदा करने से घूर्णन हार्मोनिक कंपन को रोकती है। दूसरी तकनीक आपकी समस्या का कारण बनती है, SATA प्रोटोकॉल में यह सुविधा नहीं है। इन सुविधाओं को प्राप्त करने के लिए आपको एसएएस की आवश्यकता है, और यदि आप सैटा ड्राइव पर जोर देते हैं तो आप एसएएसए इंटरपोजर कार्ड जैसे एसएसए को एलएसआईएसएस 9252 पर खरीद सकते हैं।

उन्नत आरएएफएफ तकनीक परिष्कृत इलेक्ट्रॉनिक्स ड्राइव की निगरानी करते हैं और वास्तविक समय में रैखिक और घूर्णन कंपन दोनों को सही करते हैं। परिणाम पिछले पीढ़ी के ड्राइव पर उच्च कंपन वातावरण में एक महत्वपूर्ण प्रदर्शन सुधार है।

RAID-specific, टाइम-सीमित त्रुटि पुनर्प्राप्ति (TLER) डेस्कटॉप ड्राइव के लिए सामान्य विस्तारित हार्ड ड्राइव त्रुटि-पुनर्प्राप्ति प्रक्रियाओं के कारण ड्राइव फॉलआउट रोकती है।

http://en.wikipedia.org/wiki/Error_recovery_control#Overview

कृपया नीचे दिए गए लिंक को भी देखें:

http://en.wikipedia.org/wiki/Error_recovery_control#Raid_Controllers

यह भी देखें: गहराई में त्रुटि पुनर्प्राप्ति प्रक्रिया को समझाते हुए पश्चिमी डिजिटल टीएलईआर दस्तावेज़। डब्ल्यूडी कैवियार RAID संस्करण में त्रुटि रिकवरी फॉलआउट रोकथाम सीरियल एटीए हार्ड ड्राइव:

http://www.3dfxzone.it/public/files/2579-001098.pdf


7
2018-02-25 19:34





बस एक अनुमान: हार्डडिस्क को त्रुटि की रिपोर्ट करने के बजाय पढ़ने त्रुटियों पर पुनः प्रयास करने के लिए कॉन्फ़िगर किया गया है। हालांकि यह डेस्कटॉप सेटिंग में वांछनीय व्यवहार है, यह RAID में प्रतिकूल है (जहां नियंत्रक को किसी भी क्षेत्र को फिर से लिखना चाहिए जो अन्य डिस्क से पढ़ने में विफल रहता है, इसलिए ड्राइव इसे रीमेप कर सकती है)।


6
2017-11-16 13:30



बहुत सम्भव। यदि ऐसा है, तो यह अपमानजनक रूप से अच्छा नहीं है क्योंकि इन्हें "RAID संस्करण" इकाइयों के रूप में चिह्नित किया गया है। : | - Stu Thompson
बिल्कुल ठंडा नहीं है, क्योंकि यह सेटिंग "RAID संस्करण" की परिभाषा है :) - Simon Richter


अंधेरे में मेरा शॉट:

  • ड्राइव 7 असफल रहा है। इसमें कुछ विफलता खिड़कियां हैं जहां यह उपलब्ध नहीं है।

  • ड्राइव 8 में कुछ 'लाइटर' त्रुटियां भी हैं; पुनः प्रयास करके सही किया गया।

  • RAID10 आमतौर पर "कई RAID1 जोड़े का RAID0" होता है, एक ही जोड़ी के ड्राइव 7 और 8 सदस्य होते हैं?

यदि ऐसा है, तो ऐसा लगता है कि आप एक ही जोड़ी पर दो डिस्क विफलता के "नहीं होना चाहिए" केस मारा। लगभग एक चीज जो RAID10 को मार सकती है। दुर्भाग्यवश, ऐसा हो सकता है यदि आपके सभी ड्राइव एक ही शिपिंग लॉट से हैं, इसलिए वे एक साथ मरने की संभावना अधिक हैं।

मुझे लगता है कि ड्राइव 7 विफलता के दौरान, नियंत्रक ने सभी पढ़ने को 8 ड्राइव करने के लिए रीडायरेक्ट किया था, इसलिए किसी भी त्रुटि-पुनः प्रयास ने बड़ी देरी की वजह से जमे हुए कार्यों की हिमस्खलन की वजह से थोड़ी देर के लिए प्रदर्शन को मार दिया।

आप भाग्यशाली हैं कि ड्राइव 8 अभी तक मरने की प्रतीत नहीं होती है, इसलिए आपको बिना डेटलॉस के ठीक करने में सक्षम होना चाहिए।

मैं दोनों ड्राइव्स को बदलकर शुरू करूंगा, और केबलिंग की जांच करना न भूलें। एक ढीला कनेक्शन इसका कारण बन सकता है, और अगर दृढ़ता से नहीं रोका जाता है, तो आसन्न ड्राइव में होने की संभावना अधिक होती है। इसके अलावा, कुछ मल्टीपार्ट कार्ड्स में कई दो-पोर्ट कनेक्टर होते हैं, यदि ड्राइव 7 और ड्राइव 8 एक ही हैं, तो यह आपकी परेशानी का स्रोत हो सकता है।


6
2017-11-16 14:11



ड्राइव 8 सेवा अवरोध का कारण बनता है, मैंने इसे पहले ही खींच लिया है। ड्राइव 7, जबकि कुछ समय के लिए इस राज्य में कुछ sektors खो दिया है और अभी भी आम तौर पर अच्छा प्रदर्शन कर रहा है। नहीं, वे ड्राइव अलग जोड़े में हैं। (यह कुछ ऐसा था जो मैंने अपने कैक्टि / एसएनएमपी प्रश्नों के संभावित गलत हस्ताक्षर के साथ किया था।)  कार्ड में एक बंद फलक में 16 बंदरगाह, 4 केबल्स, 4 बंदरगाह प्रति केबल हैं। यदि समस्या कार्ड, केबल या बैकपैन है तो मैं ड्राइव 8 के प्रतिस्थापन को सम्मिलित करते समय जल्द ही जानूंगा। - Stu Thompson


सैटा इंटरपोजर कार्ड एक और समाधान हैं।

मैंने हाल ही में एक ही भाग्य का अनुभव किया और इस धागे को पाया। कुल अवधि यह है कि एसएएस मसविदा बनाना एसएटीए की तुलना में RAID के लिए बेहतर अनुकूल है, क्योंकि सैटा में सुविधाओं की कमी है। यही कारण है कि वही भौतिक ड्राइव एसएएस नियंत्रकों से लैस हैं, फिर पासलाइन एसएएस के रूप में बेची जाती हैं।

आगे की खोज, मैंने पाया:

http://www.lsi.com/products/storagecomponents/Pages/LSISS9252.aspx

मैं इनके बैच के साथ अपने स्टोरेज में से एक को अपग्रेड करने की जांच कर रहा हूं। अभी, 3 टीबी सैटा बनाम एसएएस के बीच मूल्य अंतर 400% (वेनिला मूल्य, वही ब्रांड, चश्मा और दुकान, जर्मनी) है। मैं स्पष्ट रूप से यह नहीं बता सकता कि यह रणनीति अच्छी तरह से काम करती है, लेकिन यह एक कोशिश के लायक है।

टिप्पणियां बहुत स्वागत है :-)


3
2018-02-22 19:12



अच्छा अच्छा सिद्धांत। कुछ जानकारी इकट्ठा करने के बाद, केवल स्टोरेज ट्रे निर्माता इन बोर्डों को एकीकृत कर सकते हैं और उन्हें जोड़ना आवश्यक रूप से बेहतर त्रुटि प्रबंधन का मतलब नहीं है। - korkman


मैंने टूटे हुए इलेक्ट्रॉनिक्स के साथ एक एसएटीए डिस्क देखी है जो एरिका 12 की फर्मवेयर इनिट को लॉक कर रही है, कुछ बीओओएस तक पहुंचने का कोई तरीका नहीं था, मशीन को किसी भी माध्यम से बूट करने दें, जब तक बाइनरी में डिस्क खींचकर अपमानजनक हार्ड ड्राइव नहीं मिली फैशन खोजें


2
2018-05-06 18:57