OVH Community, votre nouvel espace communautaire.

Problème avec mes disque SATA


ThomasTL
03/09/2015, 10h22
Effectivement, en cherchant sur google j'ai vue que l'erreur pouvait venir de la version du kernel, j'ai donc mis à jour mon kernel de la version 3.10.9-xxxx-grs-ipv6-64 à la version 3.14.32-xxxx-grs-ipv6-64

Pour que sa refionctionne il m'a dit qu'il a fait cette commande:
Code:
mdadm --assemble /dev/md3 /dev/sdc5 --force
Et il a ajouter la ligne suivante au fichier /etc/mdadm/mdadm.conf :
Code:
ARRAY /dev/md3 metadata=1.2 spares=1 name=ns314228.ip-37-187-25.eu:3 UUID=e6c496d3:ee08c2fb:709ba77d:27607010
Pour la cause il m'a dit que c'était probablement une coupure momentanné au niveau du disque ou quelque chose de ce style, mais il n'a pas spécialement cherché la cause.

arn0
03/09/2015, 08h48
ET sa veut dire quoi ces lignes ? :
Aug 30 22:13:49 ns314228 kernel: ffff881026640ea0 ffff88101f56dd18 ffffffff81da3b50 ffff88101f56dd28
Aug 30 22:13:49 ns314228 kernel: ffffffff8119bb34 ffff88101f56dd38 ffffffff811af257 ffff88101f56dd58
Aug 30 22:13:49 ns314228 kernel: ffffffff811ffcac ffff88101f56de43 ffff88001cbe3900 ffff88101f56dd88
Aug 30 22:41:01 ns314228 kernel: [] dump_stack+0x19/0x21
Aug 30 22:41:01 ns314228 kernel: [] report_size_overflow+0x24/0x30
Aug 30 22:41:01 ns314228 kernel: [] get_next_ino+0x77/0x80
......
Et du coup tu as fait quoi pour que sa puisse refonctionner ? Ton prestataire t'a dit la cause avec les logs que tu donnes ?

Pascal [ZR]
03/09/2015, 03h12
Citation Envoyé par ThomasTL
...
Et je me demandais de que signifie la ligne "# 5 Short offline Interrupted (host reset) 90% 20 -"
Cela veut dire que lors de l'installation du disque (20h de durée de vie!) un test a été interrompu à 90%. Vraisemblablement un reboot pendant les premiers test après livraison du serveur.

Ton problème actuel vient effectivement d'un gel/reboot suite à un plantage du noyau grsecurity d'OVH.
Tu ne sembles pas le seul à l'avoir rencontré, cherche "kernel: PAX: size overflow detected in function atomic_add_return" sur google.
Met le noyau à jour s'il ne l'est pas.
Je n'ai pas cherché mais ce n'est pas "normal" de crasher un grsecurity comme ça.. Vérifie tes applications (la première erreur mentionne "Java", la seconde "cron").

ThomasTL
02/09/2015, 22h14
Oui le serveur est opérationnel la, tout remarche.

En effet il y a quelque chose dans syslog, je vous copie le début de l'erreur:
Code:
Aug 30 22:11:01 ns314228 /USR/SBIN/CRON[20156]: (root) CMD (/usr/local/rtm/bin/rtm 53 > /dev/null 2> /dev/null)
Aug 30 22:12:01 ns314228 /USR/SBIN/CRON[20327]: (root) CMD (/usr/local/rtm/bin/rtm 53 > /dev/null 2> /dev/null)
Aug 30 22:12:52 ns314228 /usr/sbin/irqbalance: Load average increasing, re-enabling all cpus for irq balancing
Aug 30 22:13:01 ns314228 /USR/SBIN/CRON[20558]: (root) CMD (/usr/local/rtm/bin/rtm 53 > /dev/null 2> /dev/null)
Aug 30 22:13:02 ns314228 /usr/sbin/irqbalance: Load average increasing, re-enabling all cpus for irq balancing
Aug 30 22:13:49 ns314228 kernel: PAX: size overflow detected in function atomic_add_return /var/home/fx/src/ovh-kernel/ovhkernel-xxxx-grs-ipv6-64/linux-3.10.9/arch/x86/include/asm/atomic.h:337 cicus.113_12 max, count: 3
Aug 30 22:13:49 ns314228 kernel: CPU: 7 PID: 20764 Comm: java Tainted: G        W    3.10.9-xxxx-grs-ipv6-64 #1
Aug 30 22:13:49 ns314228 kernel: Hardware name: Supermicro X9SRE/X9SRE-3F/X9SRi/X9SRi-3F/X9SRE/X9SRE-3F/X9SRi/X9SRi-3F, BIOS 3.0 07/05/2013
Aug 30 22:13:49 ns314228 kernel: ffff881026640ea0 ffff88101f56dd18 ffffffff81da3b50 ffff88101f56dd28
Aug 30 22:13:49 ns314228 kernel: ffffffff8119bb34 ffff88101f56dd38 ffffffff811af257 ffff88101f56dd58
Aug 30 22:13:49 ns314228 kernel: ffffffff811ffcac ffff88101f56de43 ffff88001cbe3900 ffff88101f56dd88

Et la fin :
Code:
Aug 30 22:41:01 ns314228 kernel: PAX: size overflow detected in function atomic_add_return /var/home/fx/src/ovh-kernel/ovhkernel-xxxx-grs-ipv6-64/linux-3.10.9/arch/x86/include/asm/atomic.h:337 cicus.113_12 max, count: 3
Aug 30 22:41:01 ns314228 kernel: CPU: 7 PID: 21564 Comm: cron Tainted: G        W    3.10.9-xxxx-grs-ipv6-64 #1
Aug 30 22:41:01 ns314228 kernel: Hardware name: Supermicro X9SRE/X9SRE-3F/X9SRi/X9SRi-3F/X9SRE/X9SRE-3F/X9SRi/X9SRi-3F, BIOS 3.0 07/05/2013
Aug 30 22:41:01 ns314228 kernel: ffff880196887f38 ffff880196887e68 ffffffff81da3b50 ffff880196887e78
Aug 30 22:41:01 ns314228 kernel: ffffffff8119bb34 ffff880196887e88 ffffffff811af257 ffff880196887ec8
Aug 30 22:41:01 ns314228 kernel: ffffffff8119db46 ffff880196887f08 ffffffff810e0bb0 00000000ffffffea
Aug 30 22:41:01 ns314228 kernel: Call Trace:
Aug 30 22:41:01 ns314228 kernel: [] dump_stack+0x19/0x21
Aug 30 22:41:01 ns314228 kernel: [] report_size_overflow+0x24/0x30
Aug 30 22:41:01 ns314228 kernel: [] get_next_ino+0x77/0x80
Aug 30 22:41:01 ns314228 kernel: [] create_pipe_files+0x36/0x200
Aug 30 22:41:01 ns314228 kernel: [] ? do_sigaction+0x1a0/0x1d0
Aug 30 22:41:01 ns314228 kernel: [] __do_pipe_flags+0x3c/0xb0
Aug 30 22:41:01 ns314228 kernel: [] SyS_pipe2+0x1b/0x110
Aug 30 22:41:01 ns314228 kernel: [] ? do_page_fault+0x9/0x20
Aug 30 22:41:01 ns314228 kernel: [] ? page_fault+0x27/0x30
Aug 30 22:41:01 ns314228 kernel: [] SyS_pipe+0xb/0x20
Aug 30 22:41:01 ns314228 kernel: [] system_call_fastpath+0x18/0x1d

Entre les deux ça spam toujours la même chose.

arn0
02/09/2015, 20h29
Ton serveur est de nouveau opérationnel la ? (DD monte etc) ou tu as du tout réinstaller ? Si ton serveur a crashé forcément il y a une trace dans les logs (syslog, Kernel ou autre) car sa serait intéressant de connaître la cause. Car un serveur qui ne fonctionne plus du jour au lendemain cest comme meme assez flippant si la cause est inconnu...

ThomasTL
02/09/2015, 16h51
Pour le fsck en effet voilà le résultat sans que la partition soit montée:
fsck -C -M -n /dev/md3
Code:
fsck from util-linux 2.20.1
e2fsck 1.42.5 (29-Jul-2012)
/dev/md3: clean, 2133931/122093568 files, 105815688/488345328 blocks
J'ai enlever le "spares=1" dans mdadm.conf

Concernant la cause du crash je n'en ai aucune idée, j'ai eu des problèmes de ddos dans la journée mais je ne pense pas que ce là puisse avoir un lien. Sinon je ne faisait rien de spécial sur la machine et les disques SATA n'étais pas du tout en cours d'utilisation.

J'ai fais des backup avec la solution de backup qu'ovh propose par sécurité.

Et je me demandais ce que signifie la ligne "# 5 Short offline Interrupted (host reset) 90% 20 -" dans :
Code:
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15248         -
# 2  Short offline       Completed without error       00%        23         -
# 3  Short offline       Completed without error       00%        21         -
# 4  Short offline       Completed without error       00%        20         -
# 5  Short offline       Interrupted (host reset)      90%        20         -
# 6  Short offline       Completed without error       00%         6         -
# 7  Short offline       Completed without error       00%         0         -

Pascal [ZR]
02/09/2015, 15h52
ça me semble bon, pas d'erreurs sur les disques.
J'ai corrigé une typo dans mon post précédent: c'est bien "Completed without error 00%" qui doit être affiché en résultat du short test.

Le "spares=1" dans mdadm.conf est présent car lorsque l'admin a exécuté la commande, ton array était en train de se reconstruire, donc un des deux disques était considéré comme un "spare" (disque de secours en attente d'utilisation) .
Tu peux maintenant l'enlever.

Le fsck ne s'est pas exécuté: ta partition devait être montée!

arnO a raison, la vraie question est: pourquoi ton serveur a crashé?
Fouille tes logs..
Good luck.

arn0
02/09/2015, 14h38
Je me permet d'intervenir (n'etant pas un specialiste du dédié) ce que je comprend pas c'est pourquoi ta machine s'est arreté et n'a pas pas monter les DD car le RAID a l'air de fonctionner ? As-tu eu plus de précision concernant la cause ? Tu avais quoi qui tournait sur ce serveur ?

Concernant la commande "smartctl" elle est désactivé par défaut sur les anciennes distrib linux. Faut l'activer via une commande.

ThomasTL
02/09/2015, 14h19
mdadm --detail /dev/md3
Code:
/dev/md3:
        Version : 1.2
  Creation Time : Sun Dec  7 03:16:03 2014
     Raid Level : raid1
     Array Size : 1953381312 (1862.89 GiB 2000.26 GB)
  Used Dev Size : 1953381312 (1862.89 GiB 2000.26 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Wed Sep  2 14:05:01 2015
          State : clean 
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

           Name : ns314228.ip-37-187-25.eu:3  (local to host ns314228.ip-37-187-25.eu)
           UUID : e6c496d3:ee08c2fb:709ba77d:27607010
         Events : 13382

    Number   Major   Minor   RaidDevice State
       0       8       37        0      active sync   /dev/sdc5
       2       8       53        1      active sync   /dev/sdd5
ça a l'air d'être bon il y a bien le active sync

Pour le mdadm -Db /dev/md3 >>/etc/mdadm/mdadm.conf celui qui c'est occupé du problème a déjà ajouter mais avec un spares=1 en plus ce qui donne:
Code:
ARRAY /dev/md3 metadata=1.2 spares=1 name=ns314228.ip-37-187-25.eu:3 UUID=e6c496d3:ee08c2fb:709ba77d:27607010
Alors que la commande mdadm -Db /dev/md3 me donne :
Code:
ARRAY /dev/md3 metadata=1.2 name=ns314228.ip-37-187-25.eu:3 UUID=e6c496d3:ee08c2fb:709ba77d:27607010
Je ne sais pas ce que change le spares=1

Pour le fsck -C -M -n /dev/md3 j'ai :
Code:
fsck from util-linux 2.20.1
Et pour les commande avec smartctl :

smartctl -i --attributes /dev/sdc
Code:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA DT01ACA200
Serial Number:    83GXSVEYS
LU WWN Device Id: 5 000039 ff3db2b6f
Firmware Version: MX4OABB0
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Sep  2 15:26:17 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   139   139   054    Pre-fail  Offline      -       72
  3 Spin_Up_Time            0x0007   130   130   024    Pre-fail  Always       -       288 (Average 296)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       33
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   126   126   020    Pre-fail  Offline      -       32
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       15248
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       33
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       33
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 15/48)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

smartctl -i --attributes /dev/sdd
Code:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA DT01ACA200
Serial Number:    83GXSRUYS
LU WWN Device Id: 5 000039 ff3db2aff
Firmware Version: MX4OABB0
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Sep  2 15:27:34 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   138   138   054    Pre-fail  Offline      -       75
  3 Spin_Up_Time            0x0007   127   127   024    Pre-fail  Always       -       292 (Average 303)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       33
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       15248
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       33
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       33
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 16/46)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

smartctl -l selftest /dev/sdc
Code:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15248         -
# 2  Short offline       Completed without error       00%        23         -
# 3  Short offline       Completed without error       00%        21         -
# 4  Short offline       Completed without error       00%        20         -
# 5  Short offline       Interrupted (host reset)      90%        20         -
# 6  Short offline       Completed without error       00%         6         -
# 7  Short offline       Completed without error       00%         0         -

smartctl -l selftest /dev/sdd
Code:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15248         -
# 2  Short offline       Completed without error       00%        23         -
# 3  Short offline       Completed without error       00%        21         -
# 4  Short offline       Completed without error       00%        20         -
# 5  Short offline       Interrupted (host reset)      90%        20         -
# 6  Short offline       Completed without error       00%         6         -
# 7  Short offline       Completed without error       00%         0         -

EDIT:
J'ajoute égalemment le résultat de commandes que le support d'ovh m'a demandé :

smartctl -a -d ata /dev/sdc
Code:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA DT01ACA200
Serial Number:    83GXSVEYS
LU WWN Device Id: 5 000039 ff3db2b6f
Firmware Version: MX4OABB0
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Sep  2 15:38:39 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(15587) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 255) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   139   139   054    Pre-fail  Offline      -       72
  3 Spin_Up_Time            0x0007   130   130   024    Pre-fail  Always       -       288 (Average 296)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       33
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   126   126   020    Pre-fail  Offline      -       32
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       15249
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       33
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       33
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0002   187   187   000    Old_age   Always       -       32 (Min/Max 15/48)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15248         -
# 2  Short offline       Completed without error       00%        23         -
# 3  Short offline       Completed without error       00%        21         -
# 4  Short offline       Completed without error       00%        20         -
# 5  Short offline       Interrupted (host reset)      90%        20         -
# 6  Short offline       Completed without error       00%         6         -
# 7  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

smartctl -a -d ata /dev/sdd
Code:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA DT01ACA200
Serial Number:    83GXSRUYS
LU WWN Device Id: 5 000039 ff3db2aff
Firmware Version: MX4OABB0
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Sep  2 15:38:59 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x85)	Offline data collection activity
					was aborted by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(14918) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 249) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   138   138   054    Pre-fail  Offline      -       75
  3 Spin_Up_Time            0x0007   127   127   024    Pre-fail  Always       -       292 (Average 303)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       33
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       15249
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       33
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       33
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0002   187   187   000    Old_age   Always       -       32 (Min/Max 16/46)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15248         -
# 2  Short offline       Completed without error       00%        23         -
# 3  Short offline       Completed without error       00%        21         -
# 4  Short offline       Completed without error       00%        20         -
# 5  Short offline       Interrupted (host reset)      90%        20         -
# 6  Short offline       Completed without error       00%         6         -
# 7  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Pascal [ZR]
02/09/2015, 01h15
Bonne nouvelle!

Vérifie quand même que ton array est bien assemblé avec la commande:
Code:
mdadm --detail /dev/md3
Tu dois voir /dev/sdc5 et /dev/sdd5 avec comme status "active sync" sur les deux dernières lignes.

Je te conseille aussi de rajouter la définition de /dev/md3 dans le fichier /etc/mdadm/mdadm.conf car elle n'y est pas. Si ton système n'est pas configuré pour auto détecter et monter les partitions raid soft, la prochaine fois que tu relancera ton serveur le problème se représentera.
(la commande fsck lancée automatiquement au reboot a le paramètre '-A' (cf ton premier log) et donc impose de parcourir /etc/fstab pour vérifier les système de fichiers renseignés. /dev/md3 y figure mais n'était pas monté d'où l'erreur..)

Pour ajouter la definition de /dev/md3 dans mdadm.conf:
Code:
mdadm -Db /dev/md3 >>/etc/mdadm/mdadm.conf
Vérifie quand même aussi que ton système de fichier sur /dev/md3 est clean (le paramètre -n reporte les problèmes sans les corriger, pour vérifier)
ATTENTION: ton raid doit être assemblé mais le système de fichier ne doit PAS être monté!! (l'option -M doit forcer l'abandon dans ce cas):
Code:
fsck -C -M -n /dev/md3
Si tu as des erreurs, il faudra recommencer en activant la correction.

Pour finir, regarde aussi l'état physique de tes disques, vérifie s'ils n'ont pas des secteurs défectueux:
Code:
smartctl -i --attributes /dev/sdc
smartctl -i --attributes /dev/sdd
et aussi (plus long):
Code:
smartctl -c -t short /dev/sdc
smartctl -l selftest /dev/sdc

et

smartctl -c -t short /dev/sdd
smartctl -l selftest /dev/sdd
La première commande ne renvoie pas d'infos mais lance un 'short' test de vérification du disque.
La deuxième (à lancer plus tard) lit le journal de test et doit t'indiquer "Completed without error 00%" sur ton dernier test.

ThomasTL
01/09/2015, 20h22
Voilà les résultats:

cat /etc/mdadm/mdadm.conf
Code:
# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#

# by default (built-in), scan all partitions (/proc/partitions) and all
# containers for MD superblocks. alternatively, specify devices to scan, using
# wildcards if desired.
#DEVICE partitions containers

# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode=0660 auto=yes

# automatically tag new arrays as belonging to the local system
HOMEHOST 

# instruct the monitoring daemon where to send mail alerts
MAILADDR root@localhost

# definitions of existing MD arrays

# This file was auto-generated on Wed, 10 Oct 2012 10:55:11 +0000
# by mkconf 3.2.5-3
ARRAY /dev/md1 UUID=ff2b2724:8c07900d:a4d2adc2:26fd5302
ARRAY /dev/md2 UUID=32fcf589:e52ff044:a4d2adc2:26fd5302
mdadm --examine /dev/sdc
Code:
/dev/sdc:
   MBR Magic : aa55
Partition[0] :   3907027120 sectors at         2048 (type 05)
mdadm --examine /dev/sdd
Code:
/dev/sdd:
   MBR Magic : aa55
Partition[0] :   3907027120 sectors at         2048 (type 05)

Voilà pour les 2 suivantes :

dumpe2fs -h /dev/sdc5
Code:
dumpe2fs 1.42.5 (29-Jul-2012)
dumpe2fs: Bad magic number in super-block while trying to open /dev/sdc5
Couldn't find valid filesystem superblock.
dumpe2fs -h /dev/sdd5
Code:
dumpe2fs 1.42.5 (29-Jul-2012)
dumpe2fs: Bad magic number in super-block while trying to open /dev/sdd5
Couldn't find valid filesystem superblock.
PS: désolé pour le temps de réponse mais je ne pouvais pas posté de réponse comme c'est mes premiers messages

EDIT:
J'ai un amis qui m'a mis en contact avec un admin système qui a pu résoudre le problème
D'après ce que j'ai compris la partition md3 n'était plus la et il a donc re-lié la partition avec le raid avec cette commande:
Code:
mdadm --assemble /dev/md3 /dev/sdc5 --force
Par contre je ne sais pas comment ce problème a pu arriver.

Bref merci beaucoup pour l'aide.

Pascal [ZR]
01/09/2015, 19h35
Et aussi:

dumpe2fs -h /dev/sdc5
dumpe2fs -h /dev/sdd5

Pascal [ZR]
01/09/2015, 18h59
Salut,

je dois filer donc pas trop de temps maintenant mais peux tu donner le résultat des commandes suivantes:

cat /etc/mdadm/mdadm.conf
ou
cat /etc/mdadm.conf

mdadm --examine /dev/sdc
mdadm --examine /dev/sdd

ThomasTL
01/09/2015, 18h16
Bonjour à tous,

Je viens vous demander de l'aide après avoir fait des recherches sans succès, je n'y connais pas grand chose en gestion de disque sur linux et j'ai besoin des données qui sont sur le disque à problème donc je préfère demander a des professionnel plutôt que de risquer de tout casser.

Description du problème :
J'ai une SP-64 avec 2 disque SSD de 240Go en raid monté par défaut par ovh et 2 disques SATA 2To que j'ai monté en RAID en suivant le sujet suivant : https://forum.ovh.com/showthread.php...erPlan-hybride (la première réponse)

J'ai monté les 2 disques SATA il y a quelques années et je n'ai jamais eu de problème jusqu'à il y a quelques jours. Tout d'un coup sans rien faire sur les disques en question ma machine c'est arrêté ou a crash et n'a pas pu redémarré toute seul, ovh a intervenu, je vous copie leur note d'intervention:
Cette opération a été achevée le 2015-08-30 23:43:00

Voici les détails de cette opération :
V?rification du syst?me de fichiers
Date 2015-08-30 23:42:36, remi L a fait V?rification du syst?me de fichiers:
Voici le detail de l'intervention realisee:
Le serveur a effectue une verification des systemes de fichiers (fsck)
Le serveur reste bloque durant la verification des fichiers sur le message :
(failed code 8)

Actions entreprises:
"ctrl+d" effectue

Resultat:
Serveur sur 'login'. Ping OK, services demarres.
Mon serveur est donc démarré mais les disque SATA ne sont pas monté, et j'ai l'impression que la partition qui faisait le RAID est supprimé.

J'ai également fait un ticket au support ovh pour avoir plus d'informations et ils m'ont répondu ça:
Dans les trois opérations de check file system votre serveur retourne les
messages d'erreur suivants aux techniciens :

«failed code 8»
«File system check failed. A log is being saved in /var/log/fsck/checkfs it
location is writable. Please repair the file system manually.»

Veuillez s'il vous plaît placer votre serveur sous le mode rescue-pro et par
la suite vérifier votre configuration logiciel ainsi que votre système de
fichier.
Ou bien sauvegarder vos données et par la suite réinstaller l'OS à nouveau.
Je voudrai donc réussir a "re monter" les disques pour pouvoir récupéré mes données, et si possible les remonter de la même manière qu'avant, les disques étaient sur la partition "md3"

Je vous met également les logs et les résultat de quelques commandes qui donne des info sur les disque:

/var/log/fsck/checkfs :
Code:
Log of fsck -C -R -A -y 
Mon Aug 31 23:52:31 2015

fsck from util-linux 2.20.1
e2fsck 1.42.5 (29-Jul-2012)
/dev/md2: recovering journal
/dev/md2: clean, 373389/13344768 files, 19529437/53355760 blocks
e2fsck 1.42.5 (29-Jul-2012)
fsck.ext4: No such file or directory while trying to open /dev/md3
Possibly non-existent device?
fsck died with exit status 8

Mon Aug 31 23:52:31 2015
----------------
cat /proc/mdstat
Code:
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sdb1[1] sda1[0]
      20478912 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[0]
      213423040 blocks [2/2] [UU]

unused devices: 

fdisk -l

Code:
Disk /dev/sda: 240.1 GB, 240057409536 bytes
255 heads, 63 sectors/track, 29185 cylinders, total 468862128 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x000ac388

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1   *        4096    40962047    20478976   fd  Linux raid autodetect
/dev/sda2        40962048   467808255   213423104   fd  Linux raid autodetect
/dev/sda3       467808256   468854783      523264   82  Linux swap / Solaris

Disk /dev/sdb: 240.1 GB, 240057409536 bytes
255 heads, 63 sectors/track, 29185 cylinders, total 468862128 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x000c2102

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1   *        4096    40962047    20478976   fd  Linux raid autodetect
/dev/sdb2        40962048   467808255   213423104   fd  Linux raid autodetect
/dev/sdb3       467808256   468854783      523264   82  Linux swap / Solaris

Disk /dev/sdc: 2000.4 GB, 2000398934016 bytes
81 heads, 63 sectors/track, 765633 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x4c3f7839

   Device Boot      Start         End      Blocks   Id  System
/dev/sdc1            2048  3907029167  1953513560    5  Extended
/dev/sdc5            4096  3907029167  1953512536   fd  Linux raid autodetect

Disk /dev/sdd: 2000.4 GB, 2000398934016 bytes
81 heads, 63 sectors/track, 765633 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0xc7821bf4

   Device Boot      Start         End      Blocks   Id  System
/dev/sdd1            2048  3907029167  1953513560    5  Extended
/dev/sdd5            4096  3907029167  1953512536   fd  Linux raid autodetect

Disk /dev/md2: 218.5 GB, 218545192960 bytes
2 heads, 4 sectors/track, 53355760 cylinders, total 426846080 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 21.0 GB, 20970405888 bytes
2 heads, 4 sectors/track, 5119728 cylinders, total 40957824 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/md1 doesn't contain a valid partition table

df -h
Code:
Filesystem      Size  Used Avail Use% Mounted on
rootfs           20G  3.3G   15G  19% /
/dev/root        20G  3.3G   15G  19% /
devtmpfs         32G     0   32G   0% /dev
tmpfs           6.3G  416K  6.3G   1% /run
tmpfs           5.0M     0  5.0M   0% /run/lock
tmpfs            13G     0   13G   0% /dev/shm
/dev/md2        201G   72G  119G  38% /home

cat /etc/fstab
Code:
#                
/dev/md1        /       ext4    errors=remount-ro,relatime,discard      0       1
/dev/md2        /home   ext4    defaults,relatime,discard       1       2
/dev/md3        /sata   ext4    defaults        0       2
/dev/sda3       swap    swap    defaults        0       0
/dev/sdb3       swap    swap    defaults        0       0
proc            /proc   proc    defaults                0       0
sysfs           /sys    sysfs   defaults                0       0
tmpfs           /dev/shm        tmpfs   defaults        0       0
devpts          /dev/pts        devpts  defaults        0       0

Voilà, dans l'espoire que quelqu'un aille une solution miracle pour moi, merci d'avance pour votre aide.

PS: je n'ai pas trouvé de balise spoil