OVH Community, votre nouvel espace communautaire.

Serveur hors-ligne, résolution du problème par hard reboot: où en chercher la cause ?


fritz2cat
27/11/2014, 08h51
Si ton serveur DNS est mort, le mail reste certainement en queue tant que le mailer ne sait pas comment l'expédier... il a besoin de DNS pour ça.

Tu peux envisager d'ajouter 213.186.33.99 à la fin de ton /etc/resolv.conf pour éviter que tout ne dégringole dans la foulée.

Mais ça ne résout pas la cause du problème.

fritz2cat
27/11/2014, 08h46
Citation Envoyé par sabinou
... et que tu me mis ...
Belle utilisation du passé simple

sabinou
26/11/2014, 22h44
Bonjour,

Admin pas tellement expérimenté, je gère sans soucis au quotidien mon serveur dédié, un Host-32, mais pour les opérations lourdes, je fais appel à un infogérant (Nicolas de Syrelis, bonjour si tu es dans le coin et que tu me mis !).

Ce soir j'ai eu une petite peur, mon serveur et mes sites étaient hors-ligne depuis un peu plus d'une demi-heure, impossible de s'y connecter avec Putty, aucun service web ne répondait bien sûr, et pourtant OVH ne m'envoyait pas de mail de monitoring signalant un ping raté.

Je suis allé dans mon manager OVH, le petit monitoring qu'ils donnaient (activité réseau, etc.) montrait en effet que tout était tombé à zéro, aucune activité. Je décide donc de cliquer pour lancer un hard reboot : bon choix apparemment, après deux minutes d'attente (qu'elles m'ont paru longues !) le manager confirmait que le redémarrage était terminé, et encore une minute plus tard mes sites étaient de retour en ligne.

(Ironie du sort, c'est après avoir cliqué pour demander un reboot que je reçois les mails de OVH pour dire que aie pas de ping on programme une intervention -_-)

Mais bon.
C'est la seconde fois que ça m'arrive en 6 mois (la première fois j'ai découvert ces péripéties dans ma boîte mail en revenant à la maison le soir, un serveur qui ne répondait plus au ping et que OVH a hard-rebooté).

Et j'aimerais vraiment être capable de trouver ce qui peut le causer.
Sauf que je n'ai pas la moindre idée de, même, par où commencer. Mon serveur a pas mal de visiteurs, il se logge de toutes façons une quanté faramineuse d'évènements, alors, quoi chercher, où, je ne sais pas où chercher dans mes logs.

S'il vous plaît, est-ce que, pour vous, d'expérience, vous auriez des suggestions ?

J'ai en premier lieu pensé à mes disques durs (deux SATA en Raid-1, deux SSD aussi en Raid-1), mais le monitoring sous Munin ne rapporte aucun smartctl_exit_status (LE truc à surveiller, m'a-t-on expliqué avec mon premier dédié).

J'ai Munin avec nombre de modules sur mon dédié, et les autres graphiques de monitoring montrent tous un comportement standard sans pics jusqu'au moment où plus rien n'a répondu.
A la rigueur, j'ai observé un taux de "fork rate" pour les processus Apache élevé, mais il est dur de dire s'il n'a pas explosé (au double du précédent maximum loggé) au moment où le serveur cessait de répondre, et non avant (et donc, pas la cause, mais un bref moment de folie loggé alors que le serveur cessait de répondre).

Dans /var/log/syslog, au doigt mouillé intégral, j'ai cherché "panic", mais aucun résultat lié.

Je sais juste que ça n'a pas commencé par un effondrement de l'accès aux bases de données. Un de mes sites m'envoie immédiatement une alerte mail dès qu'il échoue à se connecter à sa BDD (son code php lance immédiatement un mail() en cas d'échec de connexion, puis crée un cookie pour ne plus relancer de mail pendant une heure), or, là, je n'ai reçu nul mail de ce site, donc tout a laché d'un coup, ou une bonne partie du tout en tous cas.

J'ai parcouru les autres fichiers de log système listés dans webmin (j'ai webmin + virtualmin), sans trop y voir quelque-chose de concluant qui se serait passé autour du moment où mon serveur a cessé de répondre. Mais il est tout à fait possible que j'aie manqué une ligne précise au milieu d'un fouillis de données considérable, sans voir que c'était "elle" qui expliquait le problème, si tant est qu'une telle ligne existe en log, hein.

Alors, me voilà ici.
S'il vous plaît, si à votre avis il y a une piste habituelle en de tels cas, ou des choses à typiquement chercher dans tel fichier de log, je suis tout ouïe, merci beaucoup !

- MAJ : et à minuit passé, apparaît dans ma boîte mail cet email, envoyé par webmin,
Service monitor : BIND DNS Server down on ns ... eu :
Monitor on ns ... .eu for 'BIND DNS Server' has detected that the service has gone down at 26/Nov/2014 21:40

--> Comment ça, je reçois à minut passé un mail pour dire qu'un service a cessé de répondre 2h30 plus tôt ? Cause, causéquence, aucune idée -_-