OVH Community, votre nouvel espace communautaire.

SMART error (CurrentPendingSector) detected on host


yatoula
16/12/2013, 17h55
Disk /dev/md2 doesn't contain a valid partition table
Ben ai ce message

Athar
16/12/2013, 17h50
Pourquoi le "Aie aie aie ..." ?

Ah ouai, RedHat existe toujours (plus pour les entreprises avec une offre de support, il y a une licence avec je crois. La version "libre" étant Fedora. CentOS est un dérivé (un fork) de RedHat apparu en 2004, soit près de 10 ans après la première version de RedHat vers 1994^^)

yatoula
16/12/2013, 17h49
Grrr ai suivi la manip et resultat :
Code:
fdisk -l

Disk /dev/sda: 1000.2 GB, 1000204886016 bytes
255 heads, 63 sectors/track, 121601 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1   *           1        1306    10485760+  fd  Linux raid autodetect
/dev/sda2            1306      121536   965746688   fd  Linux raid autodetect
/dev/sda3          121536      121601      525536   82  Linux swap / Solaris

Disk /dev/sdb: 1000.2 GB, 1000204886016 bytes
255 heads, 63 sectors/track, 121601 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1   *           1        1306    10485760+  fd  Linux raid autodetect
/dev/sdb2            1306      121536   965746688   fd  Linux raid autodetect
/dev/sdb3          121536      121601      525536   82  Linux swap / Solaris

Disk /dev/md2: 988.9 GB, 988924542976 bytes
2 heads, 4 sectors/track, 241436656 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 10.7 GB, 10737352704 bytes
2 heads, 4 sectors/track, 2621424 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md1 doesn't contain a valid partition table
Aie aie aie ...

bbr18
16/12/2013, 17h43
Citation Envoyé par yatoula
heu on voit ca ou
Sais pas si ca va m'aider.. pour la reconstruction j'ai meme plus RTM
Merci
en fait t'avais juste la 1ere étape à zapper (install de l'utilitaire) pour le reste ça devrait être identique, je n'ai jamais eu de disques en raid qui aient cassé donc jamais fait cette procédure (quand j'avais commencé à répondre il y a eu d'autres réponses entre temps donc c'était plus d'actualité, ça va trop vite ^^ )

yatoula
16/12/2013, 17h35
heu on voit ca ou
Sais pas si ca va m'aider.. pour la reconstruction j'ai meme plus RTM
Merci

bbr18
16/12/2013, 17h33
Release 1 = vieille distribution sous RedHat donc pas ton cas, tu zappes les explications et tu suis celles qui concernent ta distribution qui est Centos (successeur de RedHat, mais est-ce pareil ?)

bbr18
16/12/2013, 17h29
dans le manger v3 tu as aussi la possibilité de voir le matériel, dans état du serveur, RTM harware sous cette forme :
CPU
Type : Intel(R) Xeon(R) CPU E5-1650 0...
Vitesse : 3201.000 MHz
Cache : 12288 KB
Nombre : 12

Disques durs
IO : md0
Volume Type Capacité totale Etat
vol0 raid1 1776.7 GB active
sdc1 1776.7 GB OK
sdd1 1776.7 GB OK

IO : md1
Volume Type Capacité totale Etat
vol0 raid1 10.0 GB active
sda1 10.0 GB
sdb1 10.0 GB OK

IO : md2
Volume Type Capacité totale Etat
vol0 raid1 269.0 GB active
sda2 269.0 GB OK
sdb2 269.0 GB OK

yatoula
16/12/2013, 17h17
Re je fais un petit up
pour mon disue j'ai fait
Code:
sfdisk -d /dev/sdb | sfdisk --force /dev/sda
la ensuite je sèche
1.) Installation de MDADM

La suite des logiciels MDADM n'est pas installé par défaut sur certains serveurs.

En release 1:
je suis sous centos et directadmin donc pas besoin ???
je passe direct a l'étape 4 non
4.) ADD d'un disque en mode dégradé
et la sais plus quoi faire...

HELP ...

yatoula
16/12/2013, 13h25
Heu aussi je viens de faire les manip jusqu'a Reconstruction du RAID mais je suis sous centos c'est quoi release 1
Merci

yatoula
16/12/2013, 13h12
bon je reviens a la charge j'aprends et pour un gars dans la quarantaine ben c'est pas aussi simple
Il m(ont remplacé le sda1 (c'est que je dois etre en raid) les sites refonctionnent pas d'erreur dans le panel directadmin mais deja un avec le Firewall
Je ne comprends pas ce que je dois faire maintenant
- Je dois suivre ce tuto http://guides.ovh.com/RaidSoft
- Rien ne va être effacé sur l'autre disque
- A quoi sert celui-ci si pour le moment tout est presque normal

Merci pour votre aide

yatoula
16/12/2013, 09h23
réponse plus haut du coup je dois tout remonter les cours sont forcés chez OVH va falloir mettre les mains dans le cambouis

yatoula
16/12/2013, 09h13
Bon mon disue est bien HS alors petites question sur le tuto http://guides.ovh.com/RaidSoft
je suit le tuto comme indiqué car c'est bien le sda ui est HS
par contre pourquoi faut il
Nous allons faire pareil sur md2:
En fait il faut tout reprendre de a à z
Remonter tout le serveur et tout reinstaller

buddy
16/12/2013, 09h10
Sda 1 oui ca doit etre la partition systeme. Mais sda 1 et sda 2 (données) sont sur le meme disque dur sda.

yatoula
16/12/2013, 08h13
ha oui c'est sda1 qui est HS alors ca correspond a quoi le système
Merci pour vos réponses

buddy
16/12/2013, 07h45
Bonjour,

tu as bien du RAID SOFT

1 pour la partition système (md1) et un autre pour la partition données(md2)

yatoula
16/12/2013, 02h57
Merci je ne me rappel plus mais j'ai 500Go et je pense qu'en raid c'est plutot 2x 160 ou 250 Go non
pas encore de réponse pas moyen a part la facture de connaitre le type de serveur
Merci

Voila avec la commande :
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sdb1[1] sda1[0]
10485696 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[0]
965746624 blocks [2/2] [UU]

unused devices:

starouille
16/12/2013, 00h53
Citation Envoyé par yatoula
Et ben non !! j'utilise directadmin donc pour la sauvegarde pas de soucis je remonte serveur en centos install directadmin avec les script que j'utilise et op je recupere sauvegarde sur le backup ftp ouf mais bon 4 heures de boulot
Par contre y a t il une commande qui me permet de savoir exactement tout ce que j'ai installé
Mon serveur est un EG xx il est pas tres recent
Merci
Voir un "cat /proc/mdstat" en raid soft.

Sur EG, tu as du raid, si configuré, aucun soucis, tu n'auras pas a restaurer .

yatoula
16/12/2013, 00h08
Si ton serveur a du RAID, il faudra reconstruire le raid à partir de l'autre disque.
Et ben non !! j'utilise directadmin donc pour la sauvegarde pas de soucis je remonte serveur en centos install directadmin avec les script que j'utilise et op je recupere sauvegarde sur le backup ftp ouf mais bon 4 heures de boulot
Par contre y a t il une commande qui me permet de savoir exactement tout ce que j'ai installé
Mon serveur est un EG xx il est pas tres recent
Merci

Urban
15/12/2013, 23h53
Le disque sera vide. Il va falloir reconstruire le RAID (resynchroniser les deux disques).

Par contre là, c'est quelque chose que je n'ai eu à faire qu'une seule fois en 17 ans de serveurs dédiés. Alors, je préfère laisser quelqu'un de plus expérimenté prendre la relève pour les explications et la procédure à suivre de peur de me tromper.

Il y a un tutorial dans le guide OVH, mais c'est possible qu'il ne soit pas à jour: http://guides.ovh.com/RaidSoft


*** EDIT ***

Ah, je vois qu'on a été 3 à répondre dans la même minute , écoutes les, ils sont plus experts que moi, dans ce domaine.

starouille
15/12/2013, 23h53
Citation Envoyé par yatoula
ok merci ai fait la demande via le support mais apres le remplacement j'aurai quoi un disque vide ou une copie

Pour le disque c'est bien le sda rien d'autre a dire
merci
Un disque vide, tu devras faire jouer des backups (ou resynchro si raid)

buddy
15/12/2013, 23h53
Bonsoir,

un disque vide.
Si ton serveur a du RAID, il faudra reconstruire le raid à partir de l'autre disque.

Tu as quoi comme serveur ? quel modèle ?

pour le ticket, tu as bien fait support incident ? et pas support commercial ou technique ?

yatoula
15/12/2013, 23h19
ok merci ai fait la demande via le support mais apres le remplacement j'aurai quoi un disque vide ou une copie

Pour le disque c'est bien le sda rien d'autre a dire
merci

Urban
15/12/2013, 22h47
Il faut ouvrir un ticket, et demander le changement du disque. Il faut fournir le numéro de série, le résultat smartctl. Le tech. va aussi te demander de confirmer que tu l'autorises à remplacer le disque. Même si c'est du RAID 1, il vaut mieux faire une sauvegarde, on ne sait jamais... de toute façon, faut toujours faire des sauvegardes bien entendu

ps: surtout ne pas se tromper de disque!

yatoula
15/12/2013, 22h42
En faisant
smartctl --all /dev/sda
j’obtiens
Code:
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Sun Dec 15 22:51:42 2013 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  575) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 113) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   108   090   006    Pre-fail  Always       -       232638192
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       16
  5 Reallocated_Sector_Ct   0x0033   099   099   036    Pre-fail  Always       -       1656
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       224198325
  9 Power_On_Hours          0x0032   086   086   000    Old_age   Always       -       12509
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       15
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       1011
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       4295163907
189 High_Fly_Writes         0x003a   091   091   000    Old_age   Always       -       9
190 Airflow_Temperature_Cel 0x0022   078   056   045    Old_age   Always       -       22 (Min/Max 17/24)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   085   085   000    Old_age   Always       -       31797
194 Temperature_Celsius     0x0022   022   044   000    Old_age   Always       -       22 (0 16 0 0 0)
197 Current_Pending_Sector  0x0012   100   001   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   001   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       40943923245226
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       13954225751722
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       102823663466236

SMART Error Log Version: 1
ATA Error Count: 985 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 985 occurred at disk power-on lifetime: 12493 hours (520 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00  19d+13:31:00.285  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  19d+13:31:00.285  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  19d+13:31:00.285  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  19d+13:31:00.285  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00  19d+13:31:00.285  SET FEATURES [Set transfer mode]

Error 984 occurred at disk power-on lifetime: 12493 hours (520 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00  19d+13:30:55.299  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00  19d+13:30:55.298  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  19d+13:30:55.298  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  19d+13:30:55.298  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  19d+13:30:55.298  IDENTIFY DEVICE

Error 983 occurred at disk power-on lifetime: 12493 hours (520 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00  19d+13:30:52.326  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00  19d+13:30:52.326  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  19d+13:30:52.325  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  19d+13:30:52.325  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  19d+13:30:52.325  IDENTIFY DEVICE

Error 982 occurred at disk power-on lifetime: 12493 hours (520 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00  19d+13:30:45.730  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00  19d+13:30:45.730  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  19d+13:30:45.730  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  19d+13:30:45.730  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  19d+13:30:45.729  IDENTIFY DEVICE

Error 981 occurred at disk power-on lifetime: 12493 hours (520 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00  19d+13:30:42.767  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00  19d+13:30:42.767  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  19d+13:30:42.766  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  19d+13:30:42.766  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  19d+13:30:42.766  IDENTIFY DEVICE

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%        15         -
# 2  Short offline       Completed without error       00%        10         -
# 3  Short offline       Completed without error       00%        10         -
# 4  Short offline       Completed without error       00%         2         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

yatoula
15/12/2013, 22h34
Bonsoir depuis deux jours je recois ce message
This email was generated by the smartd daemon running on:

host name: ns30xxxxxx6.ovh.net
DNS domain: ovh.net
NIS domain: (none)

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 65512 Currently unreadable (pending) sectors


For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
No additional email messages about this problem will be sent.
Mon disque est il Hs je ne comprends pas trop quoi faire
Merci