OVH Community, votre nouvel espace communautaire.

Reboot intempestif. Comment diagnostiquer ?


madri2
18/03/2016, 11h29
suffit de passer en rescue et de tester le serveur à la livraison

Fraise
18/03/2016, 09h53
Je voulais passer un de mes vieux serveurs sur HOST SSD hybride, ça me refroidit un peu là

masterboy
17/03/2016, 11h59
Salut,

Je fournis un petit retour d’expérience sur ce problème.

L'an dernier j'ai commandé un SYS E3-SSD-3 (3*120 Gb SSD) sur lequel j'avais installé un proxmox.
Suite à cela, reboot intempestif de manière aléatoire mais très rapproché (~1 fois / 48h au moins), réinstallation qui marche 1 fois sur 3, etc ... beaucoup d'effet de bord et de prise de tête pendant 3 semaines.

Au final j'ai lancé les tests rescue et communiqué les résultats lors d'un crash liée au stress test. On m'a changé les disques et depuis plus de soucis depuis 1 ans.
L'origine du problème provenait des disques SSD, même si le problème n'était pas directement visible. Difficile à se justifier auprès du support.

Je ne sais pas si ce retour d’expérience et utile, mais je le partage quand même.

Thomas.

selrahc
13/03/2016, 20h23
J'ai eu ce soucis avec hôte proxmox et environ 20 containers, j'avais 1 CT qui était full en swap de temps en temps et cela provoquait un kernel panic sur le host. J'ai fait en sorte que je CT ne swap plus et depuis plus de soucis.

Hoggins!
07/03/2016, 11h54
J'ai encore des serveurs qui foirent régulièrement... c'est vraiment ultra-relou. Ça ressemble à du chaos monkey, mais qui s'acharne toujours sur la prise de courant, comme si c'était un simple reset hard.

Vous avez du nouveau de votre côté ?

guillaume34500
16/01/2016, 09h50
Hello,

Merci pour ton retour. Ce message ne semble pas être la cause du bug selon le support.
@AnonymousCoward Oui déjà essayé, aucun retour. Le crash semble " trop rapide " pour loguer quoi que ce soit.

Guillaume

AnonymousCoward
15/01/2016, 13h12
Hello,

Est-ce que vous avez essayé d'utiliser netconsole pour tenter d'obtenir une trace des crashs ?

Un bon article à ce sujet : remote-kernel-logging-with-netconsole-for-fun-and-profit

La documentation officielle du kernel : networking/netconsole.txt


Cela m'a sauvé la mise une fois ou deux.

--
AnonymousCoward

Hoggins!
15/01/2016, 10h16
Salut,

Effectivement, au début sur deux serveurs problématiques, j'avais beaucoup de ces messages. Je n'en trouve plus.
Par contre, je viens de me connecter en IPMI... sur ces deux machines, j'ai des stack comme dans ton post #11 (excepté que ça parle de problèmes ACPI)... pour une troisième machine à la config hardware très différente, j'ai bien ça :
Code:
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu1 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu2 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu3 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu4 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu5 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu6 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu7 unhandled rdmsr: 0x570
Jan 13 22:17:02 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x606

[...]

Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x611
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x639
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x641
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x619
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x611
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x639
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x641
Jan 13 22:17:12 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x619
Jan 13 22:17:13 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x611
Jan 13 22:17:13 kvm-7 kernel: kvm [15122]: vcpu0 unhandled rdmsr: 0x639
Bizarrement, je n'ai – pour l'instant – pas eu de problème sur ce troisième serveur.

guillaume34500
14/01/2016, 18h09
Hello,

Certains des nodes qui crash ont ce message
Jan 12 21:21:17 admin-04 kernel: [11607.983430] kvm [1984]: vcpu0 unhandled rdmsr: 0x345
Jan 12 21:21:17 admin-04 kernel: [11608.407879] kvm [2120]: vcpu0 unhandled rdmsr: 0x345
Jan 12 21:22:31 admin-04 kernel: [11682.331668] kvm [2250]: vcpu0 unhandled rdmsr: 0x345
Jan 12 21:22:53 admin-04 kernel: [11704.551283] kvm [2173]: vcpu0 unhandled rdmsr: 0x345

Pourrais tu faire une recherche dans tes syslog avec unhandled ?

Merci
Guillaume

guillaume34500
09/01/2016, 14h18
Hello,

C'est au tour d'un de mes HOST-64L, online depuis plus de 40 jours de reboot, une fois encore sans raison

guillaume34500
09/01/2016, 00h17
Voici la seul remonté que j'arrive à avoir, et via le KVM uniquement, cela ne ressort pas dans les logs.

https://u.shpv.fr/5ofs3

Hoggins!
08/01/2016, 16h51
Citation Envoyé par guillaume34500
Edit: j'ai oublié, on a fait remplacer la RAM, l'alim, aucun changement dans le comportement du serveur.
Aïe. Ça aurait été mon seul espoir.
Je me demande s'ils ont des stats qui tendent vers un problème hard sur les châssis Supermicro que ces serveurs utilisent.

guillaume34500
08/01/2016, 16h29
Merci pour ton retour Hoggins!

Mes HOST-128 sont en SSD aussi, et je les utilise en tant que cache ( option directement intégré dans proxmox ) et je ne fais que du KVM.
De mon côté, j'ai essayé de désactiver le cache sur les VM, les node crashent toujours.
J'ai basculé proxmox en 4.1, pareil
J'ai également essayé de désactiver le KSM, même chose, ça péte.
J'ai été jusqu'à viré le défaut CPU kvm64 pour que le CPU soit constament en host. Mais sauf erreur de ma part, toujours pareil, j'ai déjà eu trois crash aujourd'hui, l'un n'avait pas pété depuis 28 jours, et l'autre à crash après 8 jours puis 1 jours.
J'hésite à retourner sur les bon vieux e5-26xxv3, j'avais des v2 auparavant, et j'avoue me mordre les doigts à ce jour.

Bien à toi

Guillaume

Edit: j'ai oublié, on a fait remplacer la RAM, l'alim, aucun changement dans le comportement du serveur.

Hoggins!
08/01/2016, 16h17
Salut Guillaume,

J'ai deux HOST-64L (+SSD) qui ont eu ces symptômes. Ils se sont "stabilisés" sans que j'en connaisse la raison. Je n'aime pas quand ça "tombe en marche". Comme indiqué plus haut, on pourrait soupçonner un problème hard (peut-être une alim pourrie ?). Enfin sur 7 machines, ça commence à faire vraiment étrange.

J'ai vérifié : normalement, si mes serveurs pétaient en Kernel Panic, ils devraient rester bloqués indéfiniment dessus sans rebooter. Or, c'est comme si l'on faisait un "reset hard" dessus.

Sauf que.

Ben sauf que j'ai sûrement de la chance, ça s'est calmé, et je n'ai plus ces problèmes. Mais je reste dubitatif : je n'ai jamais su pourquoi j'avais ces trucs il y a quelques jours.

Pour information, ils tournent tous les deux sur du Fedora 23, et ils servent d'hôtes KVM pour plusieurs invités. La seule "excentricité" de ces serveurs est que j'utilise l'option SSD avec le module bcache du Kernel. Ça reste quand même très basique, et si c'était ça qui devait faire tout péter, j'en aurais au moins une trace dans des logs quelconques.

Désolé de pas pouvoir en dire plus...

guillaume34500
08/01/2016, 16h01
Hello,

J'ai 7 node de type HOST-H 128 qui reboot sans raison de manière totalement aléatoire depuis déjà un mois.
Aucun log dans syslog, ni ailleurs même. j'ai mis en place un netconsole pour essayer d'exporter les logs, que dal.
Je tourne sous proxmox 4, et je me demande de plus en plus de quoi cela pourrait venir.
Et vous, quels modèle de serveurs avez vous ? Quelles distrib utilisez vous?

Bien à vous

Guillaume

Hoggins!
04/01/2016, 09h42
Ah c'est intéressant, ça. Et le diagnostic s'est fait comment ? OVH a remplacé le châssis ?

creative123456
03/01/2016, 16h42
Salut,

Oui j'ai déjà eu le cas ram défectueuse pour la 1er fois, et la semaine dernière aucun raison trouvé le serveur c'est juste stop sans même reboot et comme toi je n'ai rien dans les logs a chaque fois.

Cordialement,

Hoggins!
03/01/2016, 15h17
Bon.

Rien qui sort de l'ordinaire dans les métriques Munin.
Avez-vous déjà vu des serveurs OVH qui rebootent hard sans prévenir ? Est-ce qu'on peut demander à changer de châssis ?

Hoggins!
01/01/2016, 17h08
Salut,

Le problème, c'est justement que le syslog est vide en ce qui concerne le reboot (reset hard ?). Il y a un "gap" qui indique seulement que le serveur a tout-à-coup redémarré, sans indiquer quoi que ce soit, sans spécifier que les volumes sont démontés proprement, etc.

J'ai déjà commencé par mettre un Munin pour surveiller s'il y a des métriques qui le font péter un câble.

foxyfox
01/01/2016, 10h57
Bonjour,
il faudrait mettre en place un système de monitoring très précis afin de fouiller le syslog plus tard.

Hoggins!
31/12/2015, 10h37
Hello,

J'ai fait l'acquisition d'un tout nouveau serveur, que je trouve particulièrement capricieux : il reboote au moins une fois par jour de manière intempestive et non régulière.

Ça semble être un reset hard un peu violent : rien dans les logs n'indique le reboot en lui-même, simplement son "retour à la vie".

C'est un hôte KVM, il n'y a rien d'exotique dessus, ou qui semble justifier une telle instabilité.

Kernel OVH de base (3.14.32-xxxx-grs-ipv6-64), sans fioritures à part l'utilisation de bcache pour tirer profit des SSD présents.

Est-ce que quelqu'un pourrait me guider vers des pistes pour une résolution du problème ? J'aimerais au moins pouvoir utiliser KDump pour voir s'il y a un quelconque kernel panic avant le reboot, mais je suis pas sûr de savoir comment faire avec un kernel OVH.

Pour l'instant, je mise sur un problème hardware : le serveur n'est pas censé rebooter en cas de kernel panic, puisque /proc/sys/kernel/panic est à 0.

Des idées ?

Merci !