OVH Community, votre nouvel espace communautaire.

Check list après plantage serveur


bgiraud
13/02/2004, 10h22
Merci pour cet éclairage,

J'avais eu des plantages en série en novembre, et après une semaine de galère on avait trouvé que c'était le ventilo qui ne marchait plus.

Aujourd'hui, ce n'est pas le cas, la machine a planté une fois sans raison apparente (rien d'anormal ni dans les logs ni dans les graphs mrtg) et depuis tout fonctionne normalement. je vais dons en rester là sur mes investigations.

Une dernière question, est-il possible d'automatiser un reboot hard après 10 minutes de server down (qui serait caractérisé par des non réponses sur ping, http, ssh) ?

Merci pour ta réponse

OVH
13/02/2004, 10h08
Si vous n'avez pas trouver d'erreur dans les logs, il faut mettre en place les outils pour avoir un feedback sur le fonctionnement de la machine. Les elements de reponse:
- installer mrtg pour suivre les parametres de votre serveur dédié graphiquement:
http://guides.ovh.net/InstallMRTGSys/
- si votre serveur dédié plante regulierement, lancez "top" puis attendez le plantage. Vous aurez un dernier ecran avec les derniers process qui fonctionnaient sur la machine et vous risquez fort trouver l'origine du problème.
- si vous n'avez toujours rien et la machine plante avec une charge 0 d'un coup, contactez le support d'ovh. Nous allons mettre en place un cable serie sur votre serveur dédié vers un serveur de monitoring et faire de sort que tout ce qui sort normalement sur l'écran nous sort sur le cable serie. Nous allons ainsi pouvoir enregistrer les eventuels messages d'erreur.
- Si ça plante toujours et on ne trouve rien, nous allons changer la machine.
- Si ça plante toujours ce que ce n'est pas la machine et c'est bien les process qui tournent sur la machine. Il faudra donc mettre en place les outils de parano pour suivre l'activitée de la machine comme par exemple les sorties "ps auxw", "netstat -tanpu" etc enregistrer vers des fichiers pour savoir ce qu'il se passe au moment de plantage.

L'essentielle est de trouver l'origine du problème. C'est rare qu'on ne trouve pas l'origine du problème.

bgiraud
12/02/2004, 17h49
Bonjour à tous,

Comme certainement beaucoup d'entre vous (enfin je suppose), ma compétence en matière d'administration a commencé à quasi zéro (au moment de la prise du dédié) puis s'est progressivement étoffer, jusqu'à passer les patch sans craintes, installer des nouvelles versions de mysql, tuner q-mail, etc.

Bref je me dépatouille sans être un expert.

Aujourd'hui le serveur à planté, plus de ping .... Donc reboot hard, vérification des logs (apache, et message.log), des courbes mrtg, rien d'anormal quoi d'autre ?

Bref, après reboot le serveur fonctionne à merveille mais je ne saurais jamais pourquoi il a planté.

Est-ce que quelqu'un aurait une check list minimum permettant de détecter après plantage des défaillances logiciels, matériel ou un hack ?


Bernard