OVH Community, votre nouvel espace communautaire.

Services down... Pourquoi ?


buddy
15/08/2016, 20h18
Ce n'est pas étonnant.
Du Matos qui tourne h24 même si c'est fait pour au bout de plusieurs années la fiabilité baisse.. (sans compter que les pièces étaient peut être déjà utilisées avant sur d'autres serveurs notamment pour la ram et la carte raid

Soleille
15/08/2016, 20h02
Merci pour les liens : j'ai trouvé des offres intéressantes.

En ce qui concerne le serveur, je l'ai restitué. Avant, j'ai contacté OVH et ils ont changé la carte RAID et un des trois disques. Finalement, sur ce serveur, ils auront changé la RAM, deux disques et la carte RAID et tout ça sur les trois derniers mois (je l'ai gardé presque 4 ans).

sich
11/08/2016, 20h03
hé ho, il y'a des "partners ovh" qui ne sont pas inscrits ailleurs hein
Perso tous les serveurs que je gère sont chez ovh (sauf 1 chez gandi)... Vais pas m'inscrire comme partners chez online....

Sinon la politique des "partners" ovh c'est de pouvoir avoir un spécialiste à proximité.... Donc pourquoi ne pas chercher par proximité ?
Je sais que dans le monde du web ça n'a pas trop de sens, mais ça peut être un critère comme un autre dans une recherche....

janus57
11/08/2016, 19h14
Citation Envoyé par bbr18
le problème c'est qu'il y en a des milliers, ça revient presque à taper la recherche dans google
Bonjour,

pas si on compare avec ceux qui sont "partenaires" chez d'autre hébergeur (ici j'ai pris online mais doit y avoir d'autre hébergeurs en France.

Cordialement, janus57

bbr18
11/08/2016, 18h57
le problème c'est qu'il y en a des milliers, ça revient presque à taper la recherche dans google

janus57
11/08/2016, 18h22
Bonjour,

pourquoi en MP ?

OVH à un très jolie site pour ça : https://partners.ovh.com/infogerance-et-maintenance
Au passage le concurrent de OVH (c'est pas de la pub caché) aussi et qui bossent aussi avec OVH pour la plupart(si ce n'est tous) : https://www.online.net/fr/serveur-de...-serveur-dedie

C'est pas un pub caché pour online, juste que si quelqu'un est partenaire des 2 en même temps cela peut être un gage de qualité (de mémoire pour online il doivent re-faire un dossier chaque année, et pour OVH je ne sais pas mais c'est pas impossible non plus ou alors un genre de contrôle).

Cordialement, janus57

Soleille
11/08/2016, 14h39
Le support technique d'OVH a bien trouvé des erreurs dans les logs IPMI. Ils ont remplacé la RAM rapidement (ils avaient déjà remplacé un disque dur récemment), mais deux jours plus tard, le serveur ne répondait plus et je n'ai pas réussi à monter les partitions en mode rescue. Le service d'infogérance non plus.

J'ai donc pris un nouveau serveur et tout a été ré-installé.

Citation Envoyé par janus57
à votre place je me trouverais un autre infogérant plus compétent que ça ou je reverrais mon contrat avec eux, car 3mois pour ne pas trouver de problème avec un serveur qui doit être bourré de logs d'erreurs et vous qui découvrez en quelques test hardware un potentiel problème de RAM (qui doit surement être dans les logs…) c'est juste pas possible.
C'est pas évident de trouver un service d'infogérance qui convienne... Les quatre que j'ai eu dans le passé sont plutôt décevants... J'ai été en contact aussi avec un pro de l'hébergement qui prétendait pouvoir résoudre un problème de serveur lors d'une intervention ponctuelle et qui s'en est montré incapable.

Serait-il possible d'obtenir des adresses d'infogérants compétents ? (par MP)

Merci.

janus57
02/08/2016, 22h27
Citation Envoyé par Soleille
Justement, je n'avais plus accès à rien : pas de http, ni ftp, ni ssh...
Bonjour,

jusqu’à ce message précis vous parliez uniquement de services down, hors un service c'est pas le ping et pour SSH vous n'avez rien dit

Et si vous avez des échecs de test en rescue il ne vous reste plus qu'a faire un ticket pour faire intervenir OVH.

Aussi vous avez dit ceci :
Mon service d'infogérance n'a pas trouvé l'origine du problème pour l'instant et ça dure depuis un bon moment (trois mois)
à votre place je me trouverais un autre infogérant plus compétent que ça ou je reverrais mon contrat avec eux, car 3mois pour ne pas trouver de problème avec un serveur qui doit être bourré de logs d'erreurs et vous qui découvrez en quelques test hardware un potentiel problème de RAM (qui doit surement être dans les logs…) c'est juste pas possible.

Au passage vous avez surement un serveur avec de la RAM ECC car serveur OVH donc : http://serverfault.com/questions/643...rrors-in-linux (donc trouvable par votre infogérant si c'est confirmé que c'est la RAM).

Cordialement, janus57

Nowwhat
02/08/2016, 08h52
Citation Envoyé par Soleille
Pour le test de la RAM, il s'est bloqué à 52% et a renvoyé une boîte de dialogue disant que le serveur ne répondait plus. J'ai rechargé la page, relancé le test, mais j'ai obtenu la même erreur.
http://scratch974.net/divers/server_mem-results.png
Au moins t'as la réponse sur ta question :
Services down... Pourquoi ?
Un barrette de RAM ko, ça pardonne pas.

bbr18
02/08/2016, 08h48
t'as plus qu'à ouvrir un ticket, fais aussi les tests des disques

Soleille
02/08/2016, 06h59
J'ai effectué les tests en rescue sur le serveur ce matin, pendant environ 1h30.

J'ai commencé par le test sur les CPU et il n'a retourné aucune erreur.

Pour le test de la RAM, il s'est bloqué à 52% et a renvoyé une boîte de dialogue disant que le serveur ne répondait plus. J'ai rechargé la page, relancé le test, mais j'ai obtenu la même erreur.
http://scratch974.net/divers/server_mem-results.png

Soleille
02/08/2016, 04h56
Citation Envoyé par janus57
Pour info si il y a un problème sur le serveur c'est le meilleur moyen pour aggraver le problème voir "casser" le serveur.

La règle est : tant que vous avez un accès SSH au serveur ne jamais faire de hard-reboot (sauf si chez vous aussi vous arrêtez votre PC en retirant sa prise électrique…).
Justement, je n'avais plus accès à rien : pas de http, ni ftp, ni ssh...

buddy
01/08/2016, 21h49
Citation Envoyé par Soleille

Mon service d'infogérance n'a pas trouvé l'origine du problème pour l'instant et ça dure depuis un bon moment (trois mois)... Quand je les contacte, ils interviennent trop tard ou me répondent qu'ils n'ont pas trouvé de problèmes dans les logs.
Change rapidement ...

janus57
01/08/2016, 19h29
Bonjour,

Je rentre chez moi et je constate que plus rien ne fonctionne sur le serveur. Je reboote donc depuis le manager.
Pour info si il y a un problème sur le serveur c'est le meilleur moyen pour aggraver le problème voir "casser" le serveur.

La règle est : tant que vous avez un accès SSH au serveur ne jamais faire de hard-reboot (sauf si chez vous aussi vous arrêtez votre PC en retirant sa prise électrique…).

REBOOT HARD
Si vous ne pouvez pas effectuer de Reboot Soft, principalement parce que la machine ne ping pas et/ou ssh ne fonctionne plus et/ou telnet ne fonctionne plus et/ou webmin ne fonctionne plus, vous pouvez sérieusement penser à rebooter votre machine en Hard. Le Reboot Hard consiste à couper l'alimentation de votre machine pendant 15 secondes. Une fois que le courant alimente à nouveau la machine, le serveur commence la phase de boot. Vu que vous l'avez rebooté en Hard et donc que vous n'avez pas demonté les disques proprement, il y a fort à parier que Linux va vérifier que toutes les données sont bonnes sur le disque. Cette phase peut prendre de quelques minutes à plusieurs heures sur de grosses installations en Raid par exemple. C'est pourquoi si vous voulez rebooter la machine il faut aussi souvent que possible utiliser Reboot Soft.
Cf : http://guide.ovh.com/CommentRebooterMaMachine

Cordialement, janus57

Soleille
01/08/2016, 15h27
Oui, je suis en train d'examiner les logs...

J'ai prévu de faire des tests en rescue demain matin, quand je n'aurai pas beaucoup de membres connectés à mon site.

bbr18
01/08/2016, 15h05
Qu'est-ce que cela implique ? Les problèmes viendraient d'une possible défaillance matérielle ? Un CPU surchargé ?
alors plutôt que de redémarrer sauvagement dans le manager, il faudrait que tu te mettes en rescue et que tu fasses les tests matériels et aussi regarder les logs aux heures des divers crash afin de trouver ce qui cause tout ça

Nowwhat
01/08/2016, 15h03
Citation Envoyé par bbr18
ce n'est pas Plesk mais CPanel
Bonne nouvelle : ça ne change rien

Soleille
01/08/2016, 14h50
Je rentre chez moi et je constate que plus rien ne fonctionne sur le serveur. Je reboote donc depuis le manager.

Après avoir redémarré, je n'ai ni http ni mysql qui fonctionnent. Faire "service mysql restart" me donnant une erreur, j'ai fait d'abord "service mysql stop", puis "service mysql start". Idem pour httpd.

J'ai remarqué que CPU est en jaune avant de redémarrer (en haut à droite) :
http://scratch974.net/divers/cpu.png
Il est maintenant en vert.
Qu'est-ce que cela implique ? Les problèmes viendraient d'une possible défaillance matérielle ? Un CPU surchargé ?

Merci pour votre aide.

bbr18
01/08/2016, 10h35
ce n'est pas Plesk mais CPanel

Nowwhat
01/08/2016, 10h14
Bonjour,

Ça pu de surcharge quand même - ou une "traitement pas du tout optimalisé" (comme un script PHP écrit par mon fils) ou un truc de genre.

Comme d'hab, t'as le mystificateur Plesk qui t' "aide" dans ce cas - et uniquement le support de Plesk pourrait t'indiquer OU chercher pour trouver d'indices pourquoi un service s'arrête (le serveur mail t'as dit pourquoi : "Unable to obtain exim queue length within 30 seconds " => t'as combien de mails dans le queue ?)

Soleille
01/08/2016, 09h26
Bonjour.

Sur mon serveur (CloudLinux, Centos, Apache, PHP, Mysql, CPanel/WHM) , les services arrêtent de fonctionner et je ne sais pas encore pourquoi :
- http (plusieurs fois par jour).
- spamd, chkservd, mysql, smtp également.

Hier, c'est arrivé souvent :
-http : 3 fois
-chkservd : 2 fois,
-smtp : 3 fois
- mysql : 2 fois

Il n'y pas, apparemment, de surcharge du serveur.

Pour chkservd, j'ai cette erreur :
The chkservd process has become non-responsive.
The chkservd subprocess with PID “204484” ran for “14 minutes and 16 seconds”. The system terminated this sub-process when it exceeded the time allowed between checks, which is “5 minutes”. To determine why, check the “ /var/log/chkservd.log ” and “ /usr/local/cpanel/logs/tailwatchd_log ” files.
Hier, j'ai eu en même temps cette erreur (résolue maintenant, je pense) :
The dbindex cache file is out of date.
The dbindex cache file /var/cpanel/databases/dbindex.db.json is out of date by more than four hours.
Autre message d'erreur :
/usr/sbin/processpaneluserspackages is already running!
Exemple pour hier et ce matin :


Mon service d'infogérance n'a pas trouvé l'origine du problème pour l'instant et ça dure depuis un bon moment (trois mois)... Quand je les contacte, ils interviennent trop tard ou me répondent qu'ils n'ont pas trouvé de problèmes dans les logs.

Je vais essayer de chercher et voir ce qui est anormal et régler les problèmes.

Le premier message d'erreur inhabituel (depuis jeudi) dans les logs est :
Unable to obtain exim queue length within 30 seconds - Timed out
Sinon, quelles pourraient être, selon vous, les causes de ces problèmes de services qui s'arrêtent ?

Merci pour votre aide.