Crawl’n’Crash

Les bots des moteurs de recherche n’annoncent jamais leur passage. Pour les grands sites, ils sont même présent en permanence, que ce soit pour indexer une nouvelle page, mettre à jour le cache, prendre en compte le changement d’un article, etc…
Mais que ce passe-t’il lorsque le site ou la page demandée est hors-service ou remplie de ligne d’erreur car le serveur SQL a crashé ? La page est-elle supprimée de l’index, le bot repassera-t’il dans 10 minutes ? Et si le site est en maintenance (toutes les pages redirigent vers un beau texte) ?
Tout est si sombre…

Lorsqu’une page est demandée, un header l’accompagne. Dans ce header, il y a notamment une variable qui indique le statut de la page :

  • Le plus connu : 404 Not Found : La page n’a pas été trouvée.
  • Le plus apprécié : 200 : OK
  • Le plus frustrant : 401 : Authorization Required : Accès refusé
  • Le plus déroutant : 206 : Partial content toutes les données ne sont pas au rendez-vous
  • Transparent pour le visiteur, révélateur pour le bot : 301 : Moved Permanently : La page a été déplacée définitivement, pour les déménagements.
  • Le début de la fin : 500 : Internal Error
  • etc…

Pour les sites statiques, c’est soit tout soit rien : soit tout va bien : 200; soit le serveur web a lâché et paf : 404.
Par contre, dans le cas des sites statiques, si le système de gestion de base de donnée relationnel crash, les données des pages seront totalement faussé (lignes d’erreurs (ou pas, selon votre politique d’erreur) et la plupart des pages seront inaccessibles. Bref, le bot ne verra pas forcément qu’il y a un problème.

Si vous avez un système de maintenance (en activant une option, tous les liens mènent à Rome une page expliquant que le site est en maintenance pour blablabla..), ne faîtes surtout pas la redirection en 301 ! Choisissez plutôt une redirection propre, mais provisoire.

Quant au crawl pendant un crash, d’après mon expérience, les bots repassent plusieurs heures plus tard, tout dépend de la popularité du site (par exemple sur ce blog, les bots font une centaine de passage chaque jour, un de plus ou de moins… (bon, ce n’est pas toujours la même page qui est crawlée aussi…)).

Bref, la situation où l’indexation peut prendre un coup, c’est principalement en cas de mauvaise redirection lors de maintenances.

Lundi, juin 5th, 2006 Web'n'Stuff

Leave a Reply

« Back to text comment