OVH Community, votre nouvel espace communautaire.

Souci temperature serveur ?


dsaunier
22/04/2015, 14h36
Citation Envoyé par fritz2cat
et les lignes qui commencent par 197, 198 et 199 , que disent-elles ?
Ah omis ces lignes, elles disent

197 Current_Pending_Sector 0x0012 099 099 000 Old_age Always - 76
198 Offline_Uncorrectable 0x0010 099 099 000 Old_age Offline - 76
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0

- - - Mise à jour - - -

Citation Envoyé par janus57
Bonjour,

le serveur ne serait pas un KS par hasard ?

ST31000524AS == Seagate Barracuda

Sinon rien que ça :
Code:
ATA Error Count: 40 (device log contains only the most recent five errors)

Error 40 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
permet de déclencher une intervention du support sur le serveur.

Cordialement, janus57
Exact j'ai pas mal de serveurs, entre OVH SYS et Kimusfi il faudrait que je change de forums et logins selon la machine à chaque fois....
Je vais donc ouvrir un ticket, merci.

janus57
22/04/2015, 13h05
Bonjour,

le serveur ne serait pas un KS par hasard ?

ST31000524AS == Seagate Barracuda

Sinon rien que ça :
Code:
ATA Error Count: 40 (device log contains only the most recent five errors)

Error 40 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
permet de déclencher une intervention du support sur le serveur.

Cordialement, janus57

fritz2cat
22/04/2015, 12h43
et les lignes qui commencent par 197, 198 et 199 , que disent-elles ?

dsaunier
22/04/2015, 12h32
Ok merci, je ne m'inquiétais pas de la température mais de ce message, bizarre.
Je vais remonter l'info, bonne journée.

madri2
22/04/2015, 12h11
disque dur à changer a priori

- - - Updated - - -

mais pas à cause de la température, j'ai la même

dsaunier
22/04/2015, 11h01
Ah oui, sacrée remontée d'info. J'ai essayé de filtrer un peu (103 lignes au total), ça donne

=== START OF INFORMATION SECTION ===
Device Model: ST31000524AS
Firmware Version: JC4B
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED


SMART Error Log Version: 1
ATA Error Count: 40 (device log contains only the most recent five errors)

Error 40 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 80 e4 3f 00 Error: WP at LBA = 0x003fe480 = 4187264

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
61 00 50 b0 d8 44 41 00 28d+05:16:37.023 WRITE FPDMA QUEUED
60 00 08 80 e4 3f 40 00 28d+05:16:37.022 READ FPDMA QUEUED
61 00 08 ff ff ff 4f 00 28d+05:16:37.022 WRITE FPDMA QUEUED
ea 00 00 00 00 00 a0 00 28d+05:16:37.022 FLUSH CACHE EXT
27 00 00 00 00 00 e0 00 28d+05:16:37.020 READ NATIVE MAX ADDRESS EXT

Error 39 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 7f e4 3f 00 Error: WP at LBA = 0x003fe47f = 4187263

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
61 00 08 00 10 00 40 00 28d+05:16:34.053 WRITE FPDMA QUEUED
61 00 08 f0 65 c0 40 00 28d+05:16:34.052 WRITE FPDMA QUEUED
61 00 08 48 62 c0 40 00 28d+05:16:34.052 WRITE FPDMA QUEUED
61 00 08 70 16 c0 40 00 28d+05:16:34.052 WRITE FPDMA QUEUED
61 00 08 68 12 80 40 00 28d+05:16:34.052 WRITE FPDMA QUEUED

Error 38 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 7f e4 3f 00 Error: WP at LBA = 0x003fe47f = 4187263

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
61 00 08 f8 fe d1 40 00 28d+05:16:31.123 WRITE FPDMA QUEUED
61 00 08 f8 3e d1 40 00 28d+05:16:31.123 WRITE FPDMA QUEUED
61 00 08 a8 a1 cc 40 00 28d+05:16:31.123 WRITE FPDMA QUEUED
61 00 08 28 b9 93 40 00 28d+05:16:31.123 WRITE FPDMA QUEUED
61 00 08 38 b6 d3 40 00 28d+05:16:31.122 WRITE FPDMA QUEUED

Error 37 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 7f e4 3f 00 Error: UNC at LBA = 0x003fe47f = 4187263

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 78 e4 3f 40 00 28d+05:16:23.109 READ FPDMA QUEUED
60 00 08 70 e4 3f 40 00 28d+05:16:23.109 READ FPDMA QUEUED
60 00 08 68 e4 3f 40 00 28d+05:16:23.109 READ FPDMA QUEUED
60 00 10 e8 cb 06 41 00 28d+05:16:23.108 READ FPDMA QUEUED
60 00 08 60 e4 3f 40 00 28d+05:16:23.108 READ FPDMA QUEUED

Error 36 occurred at disk power-on lifetime: 28054 hours (1168 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 75 e5 3f 00 Error: UNC at LBA = 0x003fe575 = 4187509

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 00 a0 e4 3f 40 00 28d+05:16:19.970 READ FPDMA QUEUED
27 00 00 00 00 00 e0 00 28d+05:16:19.968 READ NATIVE MAX ADDRESS EXT
ec 00 00 00 00 00 a0 00 28d+05:16:19.967 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 28d+05:16:19.967 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 28d+05:16:19.967 READ NATIVE MAX ADDRESS EXT

fritz2cat
22/04/2015, 10h12
36° est un peu supérieur aux températures habituelles chez OVH, mais pas du tout inquiétant.

Fait un smartctl -a /dev/sda ; et remonte-nous les lignes 197, 198 et 199 ; ainsi que tout autre ligne qui te semble intéressante à exploiter.

dsaunier
22/04/2015, 10h12
Merci de la réponse, c'est la façon de l'afficher qui me faisait penser que lié, jamais vu ailleurs sur d'autres serveurs.

Ca donne ça:

http://s23.postimg.org/dgv5df7ff/webmin_alert.jpg

Dernier backup bien vérifié et intègre, comme ceux faits toutes les 12h ;-)

janus57
22/04/2015, 07h38
Bonjour,

Je pense pas que Virtualmin indique un problème de température (bien que 36°C dans un datacenter sa fait un peu beaucoup pour des HDD je trouve).

Virtualmin doit surement avertir sur ça : 26 errors!
Et "ça" on dirait des erreurs au niveau du SMART/HDD qui indiquerait sa mort imminente ou du moins que sa mort à commencé.

Backup si c'est pas trop tard ou pas réalisé !

Cordialement, janus57

dsaunier
22/04/2015, 07h29
Bonjour

Quelqu'un a-t-il déjà vu une telle alerte, ici dans Webmin:

Operating system Debian Linux 7.1
"Drive temperatures sda: 35℃ (19 errors!)"
Edit: nouveau message:
Drive temperatures sda: 36℃ (26 errors!)

Export en cours d'une grosse BdD donc je pense que le serveur est à fond, mais tout de même ?
Je dois avoir peur ?