OVH Community, votre nouvel espace communautaire.

[DEFAUT SERVEUR] DOWN de 5min inexplicable... ?


Miku
27/11/2014, 17h14
Mes VMs sont monitorés par Munin mais c'est vrai que je n'avais pas pensé à installer le munin-node sur l'hyperviseur... Ce qui aurait peut-être pu m'aider à trouver la cause.

Merci de vos réponses

starouille
27/11/2014, 14h31
+1 ça sent juste le panic qui n'a pas pu logguer. (OOM ou autre d'ailleurs, ça log pas toujours).
Idéalement faut empêcher le reboot auto et check le KVM quand ça arrive.

Très peu de chance que ça soit du à un soucis electrique.

Nowwhat
24/11/2014, 19h33
Citation Envoyé par Miku
....
Ça ressemble à une coupure de courant, non ?
Possible.
Mais ça, c'est extrêmement rare (chez OVH - et ailleurs).
Un kernel - et tout le soft qui fait tourner ton serveur - n'est pas un logiciel parfait, et quand il plante à bas niveau, des choses très compliqué comme "envoyer de l’information vers le disque dur dans des fichiers log" n'est plus possible.
Résultat: les logs n'ont pas d'information utile concernant le crash.


Je te conseille de mettre en place d'autres sources d'info comme https://www.test-domaine.fr/munin/pa...org/index.html (Munin).

Miku
24/11/2014, 18h28
Bonjour,

Le 22 Novembre à 21h52 mon serveur a redémarré de façon inexplicable. Le ping est revenu à 21h59 soit 7min de downtime.

Au reboot, mon RAID-1 Soft était en cours de resync.

J'ai vérifié l'état des disques (SMART), aucune erreur détectée.

J'ai vérifié les logs Kernel / Syslog et aucune trace, j'ai l'impression que ça ressemble à une coupure de courant :

Nov 22 21:45:01 ns35447x /USR/SBIN/CRON[287192]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
Nov 22 21:46:01 ns35447x /USR/SBIN/CRON[287320]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
Nov 22 21:47:01 ns35447x /USR/SBIN/CRON[287447]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
Nov 22 21:48:01 ns35447x /USR/SBIN/CRON[287576]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
Nov 22 21:49:01 ns35447x /USR/SBIN/CRON[287703]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
Nov 22 21:50:01 ns35447x /USR/SBIN/CRON[287831]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
Nov 22 21:51:01 ns35447x /USR/SBIN/CRON[287959]: (root) CMD (/usr/local/rtm/bin/rtm 16 > /dev/null 2> /dev/null)
-------------------------- REBOOT ? ---------------------------
Nov 22 21:59:38 ns35447x kernel: imklog 5.8.11, log source = /proc/kmsg started.
Nov 22 21:59:38 ns35447x rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="2479" x-info="http://www.rsyslog.com"] start
Nov 22 21:59:38 ns35447x kernel: Initializing cgroup subsys cpuset
Nov 22 21:59:38 ns35447x kernel: Initializing cgroup subsys cpu
Nov 22 21:59:38 ns35447x kernel: Linux version 2.6.32-34-pve (root@lbk) (gcc version 4.7.2 (Debian 4.7.2-5) ) #1 SMP Sat Nov 8 09:38:26 CET 2014
Nov 22 21:59:38 ns35447x kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-2.6.32-34-pve root=/dev/md2 ro quiet
Nov 22 21:59:38 ns35447x kernel: KERNEL supported cpus:
Nov 22 21:59:38 ns35447x kernel: Intel GenuineIntel
Nov 22 21:59:38 ns35447x kernel: AMD AuthenticAMD
Nov 22 21:59:38 ns35447x kernel: Centaur CentaurHauls
Nov 22 21:59:38 ns35447x kernel: BIOS-provided physical RAM map:
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 0000000000000000 - 000000000009d800 (usable)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 000000000009d800 - 00000000000a0000 (reserved)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 0000000000100000 - 0000000020000000 (usable)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 0000000020000000 - 0000000020200000 (reserved)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 0000000020200000 - 0000000040000000 (usable)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 0000000040000000 - 0000000040200000 (reserved)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 0000000040200000 - 00000000da859000 (usable)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 00000000da859000 - 00000000da8a4000 (ACPI NVS)
Nov 22 21:59:38 ns35447x kernel: BIOS-e820: 00000000da8a4000 - 00000000da8ac000 (ACPI data)

Ça ressemble à une coupure de courant, non ?

Le défaut n'a pas déclanché d'intervention de la part de OVH sur la machine.
Aucune trace de travaux me concernant sur http://travaux.ovh.net


Avez vous des idées/suggestions ? Car là je sèche...
Ce serveur tourne sous Proxmox et héberge plusieurs VMs.


Miku