Bonjour à tous,
Tout d'abord, merci à vous d'avoir réuni les informations. On continue de scruter les topics de maniéres réguliéres et le travail de synthèse ici est pratique .
Depuis nos derniers patchs, nous avons continuer à chercher l'origine des soucis.
D'ailleurs, je vous avais promis un résumé des patchs effectués. En réalité, le problème est complexe car nous avons plusieurs causes qui peuvent provoquer les connexions reset. A chaque fois que nous avons appliqué des patchs, nous avons réduit les connexions reset. Cependant, nous les avons jamais fait disparaitre totalement.
- Nous nous sommes d'abord rendu compte de connexions qui étaient closes par nos serveurs web lorsque les load balancers tentaient de se connecter dessus. Il étaient du à une différence de durée de vie des connexions TCP. En gros, les loads balancers, lors de fortes charges, tentaient d'ouvrir des connexions déjà établis, ce que les serveurs web refusaient : connexion reset. Ce patch a été appliqué durant l'été.
- Nos load balancers appliquent souvent des changements de configurations pour appliquer les nouveaux certificats SSL (nous en avons plusieurs milliers par jour). Lors de ces changements de configurations, nous avons identifié un bug qui entrainait la réutilisation des connexions TCP déjà ouvertes. Ce bug a été corrigé par un patch aux alentours du 14 septembre. Nous n'avons plus observé ce bug ensuite.
- Nous avons découvert un bug dans notre anti-ddos qui bloquait, de manière aléatoire, quelques premières connexions. Ce blocage coupait la connexion TCP : connexion reset. Ce patch a été déployé aux alentours du 16 septembre. Depuis, les connexions reset lors de la toute première connexion n'ont plus lieu.
Nous avons aussi testé plusieurs autre patchs qui ne se sont pas révélés fonctionnels avant, et depuis ces autres patchs.
Depuis quelques jours, nous explorons une nouvelle piste. Depuis le début de l'après midi, nous avons appliqué un patch sur
http://www.sitacados.com/
N'hésitez pas à nous indiquer si vous reproduisez les connexions reset dessus cet après midi.
Actuellement, nous n'arrivons pas à reproduire le soucis sur pingdom par exemple. Vous confirmez ?
Si le résultat de ce test est positif, nous le désactiveront pour le week end avant d'industrialiser son déploiement la semaine prochaine.
Merci à tous pour vos feedbacks et vos tests.
Cordialement,
Vincent