OVH Community, votre nouvel espace communautaire.

Load average élevé en permanence


gaboul49
02/06/2013, 10h30
ML VPS pour un cas aussi spécifique.

lanac
30/05/2013, 14h42
Je reviens sur mon soucis car il n'est toujours pas réglé.

Après plusieurs contacts avec le support OVH, on me répond que le soucis vient de chez moi... Sceptique, j'ai quand même tenté par tous les moyens de retrouver une activité normale sur mon serveur.

Pour résumer en vitesse le soucis, j'avais un VKS 1 qui tournait parfaitement, aucun ralentissement n'était visible, même en soirée et je servais (et sers toujours) environ 10.000 pages/jour. J'arrivais à cours de disque dur, j'ai donc décidé d'upgrader le serveur pour disposer de 50Go. C'est depuis ce moment que les soucis ont commencé... Le serveur est très lent et le load average est très élevé sans raison apparente.

Ce que j'ai fait :
- limiter le nombre de requêtes à 2 ou 3/seconde dans nginx et logger les infos des clients qui dépassent cette limite
- ajouter des règles fail2ban pour bannir pendant 24h les spammeurs
- optimiser ma configuration mysql pour tirer au max profit du Go de ram que j'ai
- utilisation de nginx pour tous mes services
- les access_logs sont activés sous-domaine par sous-domaine pour repérer des abus sur un domaine particulier
- optimisation de mon code pour tirer profit de php-apc (64Mo de mémoire alloués)
- slow_query_log activé

Après avoir fait tout ceci, je ne constate toujours rien d'anormal au niveau de la config ou des logs...
Mes access_logs signalent des connexions espacées de quelques secondes entre chaque requête impliquant du php.
Un top révèle que le CPU est assez peu sollicité et qu'il n'y a pas ou peu de CPU steal
La ram est utilisée à 30% environ
Plusieurs tentatives de spam sont bloquées, ça évite certains pics d'activité en soirée mais sans plus de résultats
La DB est un peu moins sollicitée grâce à l'utilisation de plus de cache
Le slow query log de mysql reporte des requêtes tout à fait basiques (des inserts dans des tables contenant peu de lignes)

Au final je me trouve toujours avec un serveur archi-lent pour tout ce qui touche au disque dur, visiblement fort occupé sans raison et le support OVH affirme que c'est de ma faute...
Je suis complètement dépité et désespéré...

laurentw
15/05/2013, 19h25
Masterboy, il est intéressant ton benchmark, merci pour le travail!
Quelques questions:
- c'est quoi le vks ? Un serveur kimsufi?
- est-ce que selon toi leur offre flexi server est comparable à la solution flexicloud que tu as testée? Quand je vois l'offre FlexiServer2 avec 50Gb c'est le double d'OVH VPS Cloud de base avec un CPU en moins mais visiblement plus performant qu'OVH malgré tout.


Merci
Laurent

lanac
15/05/2013, 06h05
J'ai eu plusieurs échanges avec le support incident à ce sujet, d'après eux, la charge de ma VM est trop élevée et ils me conseillent de limiter les risques de flood sur le serveur.

Ce que j'ai fait (règles Nginx et iptables pour limiter le nombre de connexions entrantes sur base d'une même IP). Et ça n'a rien changé.

Hier encore, j'avais des load averages très élevés (0.5 à 1.4) alors que j'avais 1 ou 2 connexions entrantes...

gaboul49
26/04/2013, 07h41
Citation Envoyé par masterboy
Bonne réflexion.

A vraie dire j'ai bien peur que depuis le 18 avril ils ont à nouveau remplie notre machine hôte avec des VPS classic, qu'en pensez-vous ?

Cordialement,
Thomas.
Difficile à dire. En même temps il faut mettre les performances en rapport avec le prix attractif des VPS classic.

Pour ma part sur 2 VKS (sur l'ancienne infra des VPS classic en attendant la migration) je n'ai pas de problème de perf et un load average entre 0.2 et 0.6 (mais j'ai des machines qui ne font pas grand chose).

masterboy
25/04/2013, 15h51
Citation Envoyé par gaboul49
En 2012 les hosts pour les VKS n'étaient peut-être pas aussi chargé que maintenant. Ça serait bien de le refaire.
Bonne réflexion.

A vraie dire j'ai bien peur que depuis le 18 avril ils ont à nouveau remplie notre machine hôte avec des VPS classic, qu'en pensez-vous ?

Cordialement,
Thomas.

gaboul49
25/04/2013, 15h35
En 2012 les hosts pour les VKS n'étaient peut-être pas aussi chargé que maintenant. Ça serait bien de le refaire.

masterboy
25/04/2013, 12h46
Bonjour,

Attention math, il s'agit de deux serveurs différent (j'imaginais que cela se verrait avec deux versions différente de munin).
Comme dit plus haut, un des deux serveurs a été réinstallé récemment (graphe de gauche), donc je ne peux donner des données plus récente.

Cependant je voulais juste affirmer que le CPU Steal a augmenté de manière significative sur les deux serveurs :
- A gauche -> ~7% de moyenne (0.xx% dans le passé).
- A droite -> A partir du 18 avril on voit la soudaine hausse du CPU.

J'espère avoir été plus clair.



ce sont de tous petits VPS
A nuancer je pense :



Benchmark global datant de 2012 (source : http://dev.petitchevalroux.net/heber...tuels.389.html).

Cordialement,
Thomas.

Math33
25/04/2013, 12h39
Le graphe de gauche date de quand ?

Il est clair qu'en tout cas le % de steal est passé d'un avg de 7 à 49%... J'imagine que si tu lances un CPU Burn les métriques vont être catastrophiques :/
Pour autant, un tel niveau de service sur du vKS ne m'étonne pas spécialement, ce sont de tous petits VPS sur des infras bien chargées, un ou plusieurs voisins "noisy" et ça peut vite dégrader la qualité de service.

Je doute qu'il y ait de SLA mentionnant cela, si vous ouvrez un ticket incident il est probable que le support ne vous soit pas d'une grande aide...

lanac
25/04/2013, 12h32
Merci Math33,

Je confirme ce que dit masterboy, l'IOWait est très faible, voici les résultats des commandes vmstat et sar :




masterboy
25/04/2013, 12h22
Bonjour Math33,

Merci de t’intéresser à notre problème.

Je ne pense pas que cela provienne des IOwait, en effet je n'en ai quasiment jamais sur mes deux serveurs (même actuellement).

En ce qui concerne une surcharge CPU cela me semble une piste pertinente.



En rouge le CPU volé par la machine hôte afin de le redistribuer à d'autre VPS.

A savoir :
- Sur le graphique de gauche, le CPU volé auparavant été quasiment nul (~2% max).
- Sur le graphique de droite, des serveurs mumble présent sur mon VPS sont considéré comme utilisant du CPU steal, cependant on voit le pic à partir du 18.

Cordialement,
Thomas.

Math33
25/04/2013, 12h15
Vos problèmes peuvent s'expliquer par 2 hypothèses :
- les hosts ne tiennent pas niveau charge (notamment CPU) et les VPS ont du mal à obtenir du temps CPU dont ils ont besoin
- le stockage est en souffrance et provoque des IOWait (à vérifier via mpstart, iostat, iotop, etc)

Pour autant, le load average n'est pas nécessairement un bon indicateur, ça permet juste de se rendre compte qu'il peut y avoir un souci. Vérifiez ce qu'il se passe niveau IO pour commencer.

masterboy
25/04/2013, 12h06
Bonjour Lanac,

J'ai actuellement deux VKS depuis un certain temps, et je confirme que depuis le 18 avril, il y a un load average extrêmement instable avec des pics très fréquent.





Sur deux serveurs complètement différent une hausse de la charge a été constaté exactement au même moment, à savoir le 18 avril précisément. J'ai réinstallé une machine à nu avec le strict minimum et le problème persévère. J'en déduis qu'il s'agit de la machine hôte qui a un soucis, mais comment faire réagir Ovh.

Je pense que la seul solution est de commander un nouveau VPS, en effet de cette manière nous changerons de machine hôte.

Cordialement,
Thomas.

lanac
25/04/2013, 10h15
Bonjour à tous !

Il y a environ deux semaines, je suis passé d'un VKS1 à un VKS2 pour disposer de plus d'espace disque.
Jusque là, le serveur tenait la charge sans soucis (nginx, php-fpm, mysql).

Mais depuis que j'ai upgradé le VKS, je fais face à un load average élevé en permanence. Dans le meilleur des cas je suis à 0.3 et dans le pire, je dépasse 2, sans raison apparente...

J'ai environ 8500 pages vues/jour, mon DNS est géré par OVH et mes mails sont gérés par un petit VPS dédié à ça.
J'ai aussi désactivé les access logs, sans amélioration notable...

J'ai contacté le support OVH qui soutient que c'est un problème de configuration et en insistant, ils proposent de lancer un diagnostic payant qui, s'il révèle que le problème leur incombe, ne me sera pas facturé...

Avez-vous une idée d'où ce problème peut venir ?

Voici un aperçu d'un top en heure creuse...



Merci pour votre aide !