Ciao a tutti,
ho un problema con un nuovo server HP DL380 G8, nei log di Vmware ho continue segnalazioni di degrado su un raid:
"Device naa.600508b1001cafa77d4ce9d2ce867f0b performance has deteriorated. I/O latency increased from average value of 6559 microseconds to 131535 microseconds. "
Sul server ci sono 7 dischi con cui ho creato 3 array separati in RAID1 (il disco 7 è uno spare). La segnalazione è sempre sullo stesso array (dove risiedono i dati di un Database SQL).
Lo smart array 420i l'ho configurato con la cache BBWC al 75% in scrittura ed il 25% in lettura, forse avrei dovuto aumentare la cache in write-back all'80% o più ? (di default avevo trovato addirittura configurata al 90%).
Le segnalazioni non avvengono tutti i giorni ma almeno 2/3 volte la settimana, probabilmente nei momenti di maggior carico.
Trovo strano un degrado del genere perchè sull'host vmware è presente solo una macchina virtuale (il database server appunto).
Ho cercato anche di dividere gli array dei dischi su 2 canali diversi del controller, anche se in Storage Adapter di Vmware mi mostra tutti gli array sullo stesso HBA:
vmhba1:C0:T0:L1
vmhba1:C0:T0:L2
vmhba1:C0:T0:L3
vmhba1:C0:T0:L4
Mi serve il vostro aiuto per comprendere meglio il problema e trovare una soluzione.
Ringrazio tutti per qualsiasi aiuto
Ciao
Andrea
Ciao Andrea,
innanzitutto inquadrerei meglio l'errore, si parla di 131 millisecondi alla fine, niente di particolarmente esagerato.
A parte il fatto che ESXi è particolarmente "rumoroso" su queste segnalazioni e ne produce a volte roppe, secondo me le problematiche sono altre, e specificatamente la configurazione del raid: perchè hai fatto tre raid separati in raid1, che limitano lo spazio disco dei singoli datastore e danno prestazioni basse? dato che alla fine puoi comunque dimensionare i disschi vmdk delle vm, era meglio aggregare tutti i 6 dischi in un unico raid10, avresti avuto lo stesso spazio disco utilizzabile ma praticamente il triplo delle prestazioni.
Se hai possibilità di rifare il raid, io seguirei questa configurazione.
Ciao,
Luca.
Dalla 5.0 in poi è possibile vedere questi messaggi.
Se sono sporadici non è nulla di preoccupante e consiglio piuttosto di guardare la latenza a livello di grafici per verificare che vada tutto bene.
Dai grafici Performance di Vmware sui dischi risulta qualche picco verso i 18000 Kbps, due nell'arco di 1 ora, peccato che i grafici tengano conto solo dell'ultima ora.. non è possibile ampliare lo storico?
Se non hai vCenter Server allora devi usare tool di terze parti.
Mi pare che Veeam Monitor (free edition) memorizzi quelli di un giorno.
PS: cmq controlla i parametri di latenza che sono più indicativi della velocità.
Grazie per l'info.
Ho controllato la latenza dell'ultima ora e risulta un max di 15 ms e una media di 2,7ms, qual è il valore soglia per iniziare a preoccuparsi?
.. piccolo aggiornamento, ora il max è 25ms e 3ms di media.
Ciao,
ti confermo quanto già detto da Luca e Andrea, oltre a questo ti aggiungo un paio di cose.
La verifica della letenza sulle lun la puoi verificare anche dalla vista Performance di ESXi.
Da chart option seleziona i contatori Physical Device Write Latency e Physical Device Read Latency.
Se nella colonna average i valori non superano i 12/15 ms stai tranquillo.
Per la configurazione dei dischi, io mi rifaccio alla solita regoletta del calcolo degli IOPs.
come suggerito da Luca, potresti configurare un Raid 10, o anche 5. Di seguito ti elenco le performance teoriche in termini di IOPS che potresti ottenere.
Ipotizzando che tu utilizzi dischi SAS da 10k che in media erogano 125 IOPs
la tua attuale configurazione:
Raid10 -> 2x 10k -> 2x125=250 IOPS Read
Raid10 -> 2x 10k -> 2x125/2=125 IOPS Write
Alternative:
Raid 5 -> 6x 10k -> 6x125=750 IOPS Read
Raid 5 -> 6x 10k -> 6x125/4=187 IOPS Write
Raid10 -> 6x 10k -> 6x125=750 IOPS Read
Raid10 -> 6x 10k -> 6x125/2=375 IOPS Write
Lo spazio ovviamente sarà diverso per ogni array.
Ciao
Sopra i 20ms di media è preoccupante.
E' come avere un vecchio disco IDE di più di 10 anni.
Picchi di 25 ci possono stare, soprattuttto se corrispondo a operazioni di IO prolungate.