OVH Community, votre nouvel espace communautaire.

Raison d’une resynchronisation RAID soft qui met plus de 6h


bobak
02/03/2015, 14h19
Un grand merci Kioob, c'est bien comme chez toi, un test :

Code:
Mar  1 00:57:01 web5 kernel: md: data-check of RAID array md2
Mar  1 00:57:01 web5 kernel: md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Mar  1 00:57:01 web5 kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Mar  1 00:57:01 web5 kernel: md: using 128k window, over a total of 20478912k.
Mar  1 00:57:01 web5 kernel: md: delaying data-check of md3 until md2 has finished (they share one or more physical units)
Mar  1 01:00:10 web5 kernel: md: md2: data-check done.
Mar  1 01:00:10 web5 kernel: md: data-check of RAID array md3
Mar  1 01:00:10 web5 kernel: md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Mar  1 01:00:10 web5 kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Mar  1 01:00:10 web5 kernel: md: using 128k window, over a total of 1932506048k.

Kioob
02/03/2015, 13h50
En regardant dans les logs

Par exemple, chez moi :
Code:
$ grep md /var/log/kern.log.1 
Mar  1 00:57:01 sbweb01 kernel: [14071438.672487] md: data-check of RAID array md2
Mar  1 00:57:01 sbweb01 kernel: [14071438.672490] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Mar  1 00:57:01 sbweb01 kernel: [14071438.672491] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Mar  1 00:57:01 sbweb01 kernel: [14071438.672495] md: using 128k window, over a total of 102272k.
Mar  1 00:57:02 sbweb01 kernel: [14071438.924599] md: delaying data-check of md3 until md2 has finished (they share one or more physical units)
Mar  1 00:57:24 sbweb01 kernel: [14071461.556617] md: md2: data-check done.
Mar  1 00:57:24 sbweb01 kernel: [14071461.567555] md: data-check of RAID array md3
Mar  1 00:57:24 sbweb01 kernel: [14071461.567558] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Mar  1 00:57:24 sbweb01 kernel: [14071461.567559] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Mar  1 00:57:24 sbweb01 kernel: [14071461.567561] md: using 128k window, over a total of 2930031872k.
Mar  1 00:57:24 sbweb01 kernel: [14071461.567562] md: resuming data-check of md3 from checkpoint.

bobak
02/03/2015, 13h27
Bonjour,
Tu as surement raison, car lors de mes vérifications je ne fais que "cat /proc/mdstat | md5deep" pour détecter que quelque chose a changé.
Donc une simple vérification déclenche effectivement une alerte dans mon scripte.
Et comme l'alerte a bien eu lieu le 01/03/2015 matin, ça ne peut être que ça. Donc, comment retrouver dans les log que c'est juste une vérification et pas une synchro ?

Kioob
02/03/2015, 12h52
Hello,

es-tu sûr qu'il s'agisse d'une resynchronisation, et non d'une simple vérification ? En effet par défaut «mdadm» déclenche une vérification complète des RAID le premier dimanche de chaque mois, c'est à dire hier... Cette vérification étant lancée en priorité basse, elle peut durer plusieurs jours s'il y a de l'activité sur le serveur.

Bref, que dit ton «cat /proc/mdstat» ?

Edit: exemple de serveur concerné là tout de suite :

Code:
$ cat /proc/mdstat
Personalities : [raid1] 
md3 : active raid1 sda3[0] sdb3[1]
      2930031872 blocks super 1.2 [2/2] [UU]
      [======>..............]  check = 31.9% (936095360/2930031872) finish=29267.5min speed=1134K/sec
      
md2 : active raid1 sda2[0] sdb2[1]
      102272 blocks super 1.2 [2/2] [UU]

Puma
02/03/2015, 11h11
Bonjour,

Tu peux déjà faire un test smart des disques :

smartctl -a /dev/sda
smartctl -a /dev/sdb

bobak
02/03/2015, 10h49
Bonjour,

Savez-vous où et comment chercher la raison d’une resynchronisation d’un RAID soft ?
Avent de tous couper et faire une vérification complète des disques, j’aimerais déjà savoir si cette resynchronisation est du potentiellement a un problème hard ou autre chose.
Pour le test des disques pensez-vous que c’est une bonne idée de repasser le serveur en mode rescue et de faire le test avec l’interface de « Check Hardware» (http://guide.ovh.com/ModeRescue) ?

Mon serveur dédié est sur une Debian 7.8.