Jedna sa o popularne disky WD Green (5400 rpm) a ich non-stop prevadzku, ale problem sa moze prejavit aj pri normalnej prevadzke.
Uvod
V januari 2011 som si kupil osem WD Green 2 TB diskov, presne seriu WD20EARS (v sucasnosti nahradenu WD20EARX a WD30EARX pre 3 TB). Disky sluzili v HW RAID6, vsetko fungovalo mesiace bez problemov.
Prve problemy
V poslednej dobe (cca 1-2 mesiace dozadu) sa mi zacali vo fileserveri diat divne veci. Radic nevedel pri starte najst ani jeden z tych osmich diskov, ale po nabootovani do Windowsu bolo diskove pole funkcne. LSI utilita k radicu obcas vypisala chybu, ze je problem s pamatou na radici, co by celkom odpovedalo. Myslel som si, ze radic teda odchadza pomaly do vecnych lovist a kedze som nechcel prist o moje data, rozhodol som sa, ze fileserver prestavam a prejdem z HW RAIDu na FreeNAS, aby som mohol vyuzit ZFS filesystem (RAID-Z2). Po prechode na novy HW sa vsak diskove pole stale rozpadalo, jednotlive disky sa odpajali a celkovo bolo nespolahlive. Raz sa disk odpojil po nahrani 5 GB dat, inokedy som mohol nahrat 300 GB a vsetko fungovalo. Vzdy sa vsak skor ci neskor objavila nejaka chyba, kvoli ktorej sa pole dostalo do Degraded rezimu.
Patranie
Stravil som peknych par hodin testovanim vsetkych komponentov, pokupil som nove SATA kabliky, kebyze je nahodou problem tam. Prehadzoval som disky z AHCI rezimu do IDE a naopak. Vysledok bol vzdy rovnaky, po vytvoreni ZFS pola vo FreeNASe a malej zatazi (kopirovanie dat) sa jeden ci viac diskov z pola odpojilo s roznymi chybami (disk nenajdeny, chyba I/O, ...).
Toto vsetko na novych komponentoch (doska, RAM, CPU), takze moznost, ze by bolo nieco z tohto vadne je pomerne mala. Zacal som teda po jednom testovat samotne disky este v inom pocitaci, aby som naozaj vylucil chybu systemu a nestacil som sa divit.
Zdroj problemov
Na testovanie diskov som pouzival HDTune v Quick a normalnom mode a taktiez utilitu od WD - Data Lifeguard Diagnostic [klik]. Mam pekne popisane, ktory disk sa ako spraval a ktorymi testami presiel, ale to nie je teraz dolezite. Podstatne je, ze v konecnom dosledku 7 diskov z 8 mi vyfailovalo na aspon jednom teste. Upozornujem, ze Extended surface test of WD trva na 2 TB disku tak 6 hodin a ja som nim prehnal vsetky disky, niektore aj viackrat.
Pri diskoch som sa okrem toho hlavneho potykal s problemami ako:
- Nenulova hodna Reallocated Sector Count v SMART
- Najdene a opravene chyby pri surface teste
- Disk neprejde ani zakladnym WD SMART testov, ktory trva asi 2 minuty
Hlavna pricina
Ten najvacsi problem a namet celeho tohto prispevku je, ze v SMART som mal hodnotu Load Cycle Count pri vsetkych diskoch cca 150 000. Tato hodnota udava kolkokrat sa zaparkovali hlavicky v disku. Normalne sa ta hodnota pohybuje okolo stoviek az jednotiek tisic po dobu niekolkych mesiacov. Co sposobilo taky ukrutny narast, kedy sme sa zrejme dostali na koniec zivotnosti mechanizmu? Samozrejme ako inak, ekologia a pretekanie sa, kto zozerie co najmenej energie, nech to stoji co to stoji.
Disky WD maju parameter Idle3. Tento urcuje, po akom dlhom case v necinnosti sa v disku zaparkuju hlavicky. WD od vyroby nastavuje tuto hodnotu na 8 sekund! Takze nieco 15 sekund nerobite s diskom? Hlavicky su zaparkovane. Windows cosi nacita? Hlavicky sa odparkuju. Zase sa 20 sekund nerobi cosi? Hlavicky sa zaparkuju.
Hladanim na internete som zistil, ze ludia tento problem riesili uz 2 roky dozadu, ale samozrejme som o nicom takom nevedel. Priamo od WD existuje utilitka, ktorou sa da tento parameter menit [klik]. Nachadza sa tiez na bootovatelnych CD ako Hiren's Boot CD alebo Ultimate Boot CD. Sam som overil, ze sa nou da menit tento parameter aj na WD20EARS diskoch a velmi pravdepodobne to pojde aj na WD20EARX.
Takze ja som sa uz poucil, vsetkych 8 diskov som poslal na reklamaciu, pretoze ani tomu poslednemu neverim natolko, aby som mu zveril svoje data. Ked sa disky vratia (snad to vyreklamuju), tak hned na nich menim Idle3 parameter z 8 sekund na 5 minut. Tato hodnota bola na nete prediskutovana ako ta "normalna" aj v 24/7 prevadzke mali tie disky po niekolkych mesiacoch narast Load Cycle Count iba par stoviek az tisicov.
Takze kto ma WD Green disk a dostane sa k SMART hodnotam (nema ho v RAIDe), odporucam pozriet tuto hodnotu, ci sa tiez nestal obetou takehoto skveleho napadu usetrit zopar watthodin. Pre pobavenie este obrazok z jedneho testu, aby ste videli, ako taky disk moze skoncit po asi 14 mesiacoch prevadzky:
![Obrázok](http://www.abload.de/thumb/wdidle3failb2pnc.png)
Pamatate si aj vy doby, ked ste v skrini nasli asi tak 10 rocny disk, ktory ste zapojili a on fungoval? Tak tie su uz prec.