PDA

View Full Version : QNAP 431+ : Plugged Drive Failed


CapodelMondo
20-05-2016, 23:49
Salve a tutti,

sinteticamente parlando e come potete (se volete) leggere dall'estratto log qui sotto, mi son trovato il volume degradato. Sono semplicemente due WD Red 3 TB in mirroring.

Andando a verificare lo stato dei dischi il disco 2 non risultava proprio presente. Non mi era possibile indagare e ottenere niente di più di quei log sotto riportati.

Ho estratto e reinserito il disco ed è stato rilevato, in questo momento il volume RAID è in 'rebuilding'. Ora immagino che una volta finito il rebuild potrò ottenere qualche info in più sullo stato di salute del disco.

Il vero dubbio è (non sono pratico lo ammetto), vi risulta che sia una cosa che può capitare questa 'perdita' di un disco o ad ogni modo procedereste con la sostituzione?

Il nas non è mai stato spento dal momento dell acquisto (su amazon), uptime sui 250 giorni. Per non sapere ne leggere ne scrivere ho ordinato la volo un disco esterno usb 3.0 da 2 Tb da usar come backup (erano mesi che dovevo farlo). Spero in caso di guasto che la garanzia copra.

Avete suggerimenti su come indagare per capire più a fondo ciò che è successo??


323 Information 2016-05-21 00:27:19 System 127.0.0.1 localhost [RAID Group 1] Start rebuilding.
322 Information 2016-05-21 00:26:16 System 127.0.0.1 localhost Host: Drive2 plugged in.
321 Error 2016-05-20 07:29:33 System 127.0.0.1 localhost Host: Drive2 unplugged.
320 Error 2016-05-20 07:29:32 System 127.0.0.1 localhost [Volume Pozzo] Host: Drive2 failed.
319 Error 2016-05-20 07:29:18 System 127.0.0.1 localhost Plugged drive failed to work.
318 Information 2016-05-20 07:28:43 System 127.0.0.1 localhost Host: Drive2 Disable NCQ since timeout error.



Grazie a chi avrà la pazienza di leggere e la voglia di rispondere.

gianmpu
21-05-2016, 08:47
La prima cosa da fare per verificare lo stato di un disco è controllarne i dati smart con un software come crustaldiskinfo.
Nel tuo caso potresti controllarlo subito visto che con un raid 1 degradato non c'è perdita di dati a meno che l'unico disco rimasto non decida di passare a miglior vita da un momento all'altro senza nessun segnale.
Comunque, visto che la legge di Murphy è sempre in agguato, usando un approccio più prudente, potresti:
1) Aspettare che il rebuild del raid sia completo
2) Fare il backup di tutti i dati del Nas sul nuovo disco
3) Fare lo shutdown del Nas
4) Estrarre il disco che ha avuto problemi e, collengandolo direttamente al pc con un cavo sata o via usb, controllare i dati smart con crystaldiskinfo
Infine puoi postare anche qui la schermata che il software fa vedere

Inviato dal mio GT-N5100 utilizzando Tapatalk

CapodelMondo
21-05-2016, 09:10
La prima cosa da fare per verificare lo stato di un disco è controllarne i dati smart con un software come crustaldiskinfo.
Nel tuo caso potresti controllarlo subito visto che con un raid 1 degradato non c'è perdita di dati a meno che l'unico disco rimasto non decida di passare a miglior vita da un momento all'altro senza nessun segnale.
Comunque, visto che la legge di Murphy è sempre in agguato, usando un approccio più prudente, potresti:
1) Aspettare che il rebuild del raid sia completo
2) Fare il backup di tutti i dati del Nas sul nuovo disco
3) Fare lo shutdown del Nas
4) Estrarre il disco che ha avuto problemi e, collengandolo direttamente al pc con un cavo sata o via usb, controllare i dati smart con crystaldiskinfo
Infine puoi postare anche qui la schermata che il software fa vedere

Inviato dal mio GT-N5100 utilizzando Tapatalk

ciao e grazie per la risposta.

dunque ho per ora usato le utility del software qnap per un test rapido che ha dato esito positivo. Nessun errore. Le info SMART dicono tutto 'buono' come stato.

Visto che il rebuild è ancora in corso attendo per fargli fare quello approfondito (che richiederà 4 ore ! ).

Ho ordinato subito un disco esterno usb 3.0 d 2 tb (nel nas in un anno ne ho occupati solo 700 giga) che utilizzerò come backup dei dati più importanti del nas creando un job automatico che se rileva il disco collegato parte col sync dei dati.

Potrebbe davvero esser stato una cosa random e passeggera ma per non saper ne leggere ne scrivere credo che:


Aggiungerò un terzo disco per passar a raid 5 (dovrebbe essere più sicuro no).
Aprirò comunque pratica a WD per la richiesta sostituzione
Metterò un bel po di roba nel cloud di google sto week end.


Adesso mi sto spulciando il DMESG per vedere che trovo...

gianmpu
21-05-2016, 10:11
Va bene fare il test approfondito, ma dopo il rebuild posta comunque i valori smart effettivi perchè le etichette ok non sempre corrispondono a "non c'è nessun problema".
Sono d'accordo con il backup che può essere schedulato anche giornalmente in momenti "morti" come la notte se i dati sono importanti.
Un raid 5, invece, non aumenta il livello di sicurezza. La fault tolerance, infatti, è la stessa sia per un raid 1 che per un raid 5 con tre dischi. In entrambe i casi il raid non perde i dati se s rompe 1 solo disco. Per aumentare la sicurezza usando tre dischi dovresti usare un raid 6 che sopporta la rottura di 2 dischi, ma ha lo svantaggio di avere uno spazio totale inferiore rispetto al raid 5 e prestazioni inferiori. Inoltre, non ho mai verificato se i Nas commerciali lo supportano (io lo uso su una macchina assemblata con controller hardware).
Per la sostituzione del disco, invece, tieni conto che Western Digital ormai rispedisce come sostituti solo dei ricondizionati. Se hai anche la garanzia del vendtore, valuta se ridarlo a loro, perchè il venditore potrebbe darti un prodotto nuovo mentre il produttore sicuramente no.

Inviato dal mio GT-N5100 utilizzando Tapatalk

gianmpu
21-05-2016, 10:26
Tra l'altro, dando un'occhiata veloce su wikipedia, per il raid 6 viene indicato un minimo di 4 dischi per poterlo realizzare. Io l'ho creato lo stesso usando solo 3 dischi su controller Intel, ma non so dirti se questo varrebbe per altri controller

Inviato dal mio GT-N5100 utilizzando Tapatalk

CapodelMondo
21-05-2016, 11:33
l ho preso su amazon ma mi han scritto linkandomi il sito wd per far un RMA (loro non sono il venditore ma un certo quindi dite che non me lo sostituiscono con uno nuovo?

conviene comprarne uno cmq, vedere come vive questo e attendere forse

gianmpu
21-05-2016, 12:28
Ormai no, non ti daranno un nuovo. Come già detto Western Digital da solo riondizionati. Per carità, il ricondizionamento viene fatto da loro con tutte le garanzie che questo porta (tecnologie di livello industriale, personale esperto etc.), ma la base è sempre data da uno o più dischi rientrati per problemi.
Tra l'altro, una cosa che ho dimenticato di dire è che, alzando il livello raid da 1 a 5, anche se la fault tolerance resta uguale, si alza la probabilità che si verifichi un guasto perchè aumentando il numero di dischi che compongono il raid ovviamente la probabilità che almeno uno si guasti è maggiore

Inviato dal mio GT-N5100 utilizzando Tapatalk

CapodelMondo
21-05-2016, 15:50
ok il test approfondito è in corso.

a sto punto credo mi convenga proseguire di cautela con i suddetti backup (sperando regga tutto fino a lunedi) e stando pronto ad ordinare un altro wd red identico in caso ricapiti.

potrei anche comprarlo subito e tenerlo in casa pronto.

un idea che mi era balenata tempo fa era di aggiungere un disco da 5 o 6 tera in uno dei due slot liberi. senza aggiungerlo a nessun volume raid. un bidone dove tenere i dati non critici e , a sto punto in cui potrei metter un altro backup dei dati su raid 1 (magari con un job schedulato)

in questo modo se si guasta una dei due dischi del raid ho questo disco a parte , non mi metto al riparo dall esplosione del nas ..ma per quello c'è il backup su USB e il cloud di google.

gianmpu
21-05-2016, 16:55
Se hai già un backup dei dati importanti su un supporto non contenuto nel nas (un disco usb) e un altro backup in posto geograficamente diverso rispetto a dove si trova il nas (cloud) hai già modo di recuperare da tutte le possibili cause di rottura e/o catastrofi naturali. :D
Per garantire la continuità del servizio potresti tenere un disco di scorta identico a quelli del raid 1 da sostituire al volo, ma oltre questo personalmente non farei altro. ;)

CapodelMondo
21-05-2016, 17:26
Se hai già un backup dei dati importanti su un supporto non contenuto nel nas (un disco usb) e un altro backup in posto geograficamente diverso rispetto a dove si trova il nas (cloud) hai già modo di recuperare da tutte le possibili cause di rottura e/o catastrofi naturali. :D
Per garantire la continuità del servizio potresti tenere un disco di scorta identico a quelli del raid 1 da sostituire al volo, ma oltre questo personalmente non farei altro. ;)

non hai tutti i torti. diciamo che era per sfruttare gli slot a disposizione. alla fine credo che sia bassa la probabilità che salti il nas portandosi dietro tutti i suoi dischi..è pure protetto da UPS con spegnimento automatico in caso di corrente assente oltre i 5 minuti.

l anello più debole della catena, per la mia esperienza, è il disco esterno usb. me ne sono morti alcuni nella mia (lunga) carriera di smanettone.

gianmpu
21-05-2016, 22:28
L'unico consiglio che posso darti per allungare la vita al disco usb di backup è quello di collegarlo solo al momento del backup e non utilizzarlo per altri scopi. In realtà è un po' uno spreco di risorse, ma per quanto mi riguarda, mi permette di continuare ad usare tuttora alcuni dischi che hanno più di 5 anni sulle spalle

Inviato dal mio GT-N5100 utilizzando Tapatalk

CapodelMondo
21-05-2016, 23:36
qui un dump dei dati smart (il disco incriminato è quello nel bay 2)

anche il controllo full di 4 ore è finito senza rilevare errori. :mbe:

Model : TS-431+
Firmware : 4.1.4 (20150820)
NAS : Q152I08328

==========[ BAY 1, WDCWD30EFRX-68EUZN02861588, WD-WMC4N0K6MAL6 ]
ID Description RawValue Value WorstValue Threshold Status
001 Raw_Read_Error_Rate 0x1 200 200 051 Good
003 Spin_Up_Time 0x0 100 253 021 Good
004 Start_Stop_Count 0x1 100 100 000 Good
005 Retired_Block_Count 0x0 200 200 140 Good
007 Seek_Error_Rate 0x0 100 253 000 Good
009 Power_On_Hours 0x17d0 092 092 000 Good
010 Spin_Retry_Count 0x0 100 253 000 Good
011 Calibration_Retry_Count 0x0 100 253 000 Good
012 Power_Cycle_Count 0x1 100 100 000 Good
192 Power-Off_Retract_Count 0x0 200 200 000 Good
193 Load_Cycle_Count 0x7c 200 200 000 Good
194 Temperature_Celsius 0x26 112 109 000 Good
196 Reallocated_Event_Count 0x0 200 200 000 Good
197 Current_Pending_Sector 0x0 200 200 000 Good
198 Uncorrectable_Sector_Count 0x0 100 253 000 Good
199 SATA_R-Error_Count 0x0 200 200 000 Good
200 Multi_Zone_Error_Rate 0x0 100 253 000 Good

==========[ BAY 2, WDCWD30EFRX-68EUZN02861588, WD-WCC4N2FJR1LK ]
ID Description RawValue Value WorstValue Threshold Status
001 Raw_Read_Error_Rate 0x0 200 200 051 Good
003 Spin_Up_Time 0x0 100 253 021 Good
004 Start_Stop_Count 0x2 100 100 000 Good
005 Retired_Block_Count 0x0 200 200 140 Good
007 Seek_Error_Rate 0x0 200 200 000 Good
009 Power_On_Hours 0x17cf 092 092 000 Good
010 Spin_Retry_Count 0x0 100 253 000 Good
011 Calibration_Retry_Count 0x0 100 253 000 Good
012 Power_Cycle_Count 0x2 100 100 000 Good
192 Power-Off_Retract_Count 0x0 200 200 000 Good
193 Load_Cycle_Count 0x7b 200 200 000 Good
194 Temperature_Celsius 0x25 113 112 000 Good
196 Reallocated_Event_Count 0x0 200 200 000 Good
197 Current_Pending_Sector 0x0 200 200 000 Good
198 Uncorrectable_Sector_Count 0x0 100 253 000 Good
199 SATA_R-Error_Count 0x0 200 200 000 Good
200 Multi_Zone_Error_Rate 0x0 200 200 000 Good

gianmpu
22-05-2016, 10:41
A giudicare dai dati il disco è in condizioni perfette. Per essere ancora più sicuro, se fossi in te, farei un controllo al parametro g-sense error e agli interface error count. Gli errori g-sense possono essere dati da più cause e analizzare il parametro permette di capire (nel caso ci siano errori) se ci sono stati fattori esterni (colpi, urti etc.) al disco in funzione oppure se c'è una vibrazione eccessiva del disco.
Il secondo parametro, invece, ti mette al riparo dalla remota eventualità che il disco abbia un leggero gioco e possa quindi non avete contatto perfetto.
Comunque, visto lo stato del disco e conoscendo la qualità dei prodotti qnap, puoi considerarla più una mia paranoia personale che una reale esigenza.

Inviato dal mio GT-N5100 utilizzando Tapatalk

CapodelMondo
22-05-2016, 20:24
A giudicare dai dati il disco è in condizioni perfette. Per essere ancora più sicuro, se fossi in te, farei un controllo al parametro g-sense error e agli interface error count. Gli errori g-sense possono essere dati da più cause e analizzare il parametro permette di capire (nel caso ci siano errori) se ci sono stati fattori esterni (colpi, urti etc.) al disco in funzione oppure se c'è una vibrazione eccessiva del disco.
Il secondo parametro, invece, ti mette al riparo dalla remota eventualità che il disco abbia un leggero gioco e possa quindi non avete contatto perfetto.
Comunque, visto lo stato del disco e conoscendo la qualità dei prodotti qnap, puoi considerarla più una mia paranoia personale che una reale esigenza.

Inviato dal mio GT-N5100 utilizzando Tapatalk

mille grazie per la consulenza....

ehm..come posso controllar quei parametri di cui parli?

gianmpu
23-05-2016, 05:49
Con un software per vedere tutti i dati smart come crystaldiskinfo

Inviato dal mio GT-N5100 utilizzando Tapatalk

CapodelMondo
23-05-2016, 06:48
Con un software per vedere tutti i dati smart come crystaldiskinfo

Inviato dal mio GT-N5100 utilizzando Tapatalk

visto che sembra tutto ok volevo lasciar il disco nel nas. posso ottener le info in qualche modo anche col disco dentro?