Le terrible SPOF is not your friend

Qu’est ce que le Spof ?

Single Point Of Failure, autrement dit le fait qu’un système informatique a un maillon faible dans sa chaine d’équipement (un équipement n’est pas doublé par exemple). Une architecture informatique sans SPOF est une architecture où une, et une seule, panne n’entraine pas de perturbation dans son fonctionnement.

Instinctivement, quand on pense rupture ou panne d’un équipement, on a tendance à doubler l’élément le plus couteux. Et on néglige un petit câble, un petit hub, un switch …

En fait chacun des éléments compte dans la mise en place d’une solution sans SPOF, il n’y a pas d’équipement à privilégier, pourquoi ?

Le calcul de la fiabilité de l’ensemble dépend de la fiabilité du plus faible de ses composants. Si le petit switch a plus de chance de tomber en panne, il est critique de la doubler. Avoir seulement doublé le Firewall ou le serveur-qui-coûte-cher ne sert alors à rien.

Quand vous designez une architecture de production, l’idée est justement d’éliminer tout SPOF ce qui veut dire que votre architecture doit être complétement redondée. Là commence les problèmes: Par exemple l’accès télécom (au hazard…); pour être sûr de ne pas avoir de rupture vous commandez deux liens à votre provider préféré. Voici les risques qui existent alors (non, je n’exagère pas) :

  • êtes vous biensûr que les deux lignes télécom passent dans des gaines physiquement séparées et distantes ? (le coup de péleteuse dans les gaines arrive de temps à autre…)
  • êtes vous biensûr que l’alimentation éléctrique de vos équipements et ceux de l’opérateur sont bien doublés ?
  • un seul provider ? Et si celui-ci a un réseau qui tombe en panne ou ses équipes sont en grêve, vous faites comment ?

Un dernier point pour terminer: dans un réseau TCP/IP, les opérations entre client et serveurs commencent souvent par un établissement de connexion. Si la connexion est rompu plus d’un -certain- temps, elle doit être re-initialisée causant alors une coupure de communication téléphonique, un échec de téléchargement de fichier ou de traitements divers.

Le basculement vers un équipement de secour doit donc prendre le moins de temps possible (quelques secondes) et vous devez y penser avant de définir l’architecture de la solution de reprise. Par exemple en calibrant correctement les timers du Spanning-tree sur les switchs.

  • LinkedIn
  • MySpace
  • Viadeo
  • Yahoo Bookmarks
  • Facebook
  • Ping
  • Twitter
  • Blogger Post
  • Windows Live Favorites
  • Jamespot
  • Technorati Favorites
  • Yoolink
  • Google Bookmarks
  • Share/Save/Bookmark
This entry was posted in Infrastructure and tagged , , , , , , , , . Bookmark the permalink.

Comments are closed.