Google vient de lancé l’index status : il s’agît d’une nouvelle fonctionnalité de Google Webmaster Tools vous permettant d’en savoir plus sur les pages que le moteur de recherche indexe.

Index status google

Vous retrouverez “l’index status” de votre site dans la rubrique “health” ou “Etat de santé” de votre webmaster tools. La vue standard vous donne des informations sur le nombre de pages qui sont présentes dans l’index de Google. Ce chiffre est annoncé par Google comme étant plus fiable que la commande “site:”, un indicateur qui laissait vraiment à désirer. Google ajoute également que ce chiffre est donné “post canonicalisation“. Du côté de la vue “avancée”, vous trouverez une information plus détaillée.

En effet, Google vous dévoile quelques secrets supplémentaires:

D’abord, le nombre de pages que Google a crawlées au moins une fois depuis 1 an : ce chiffre correspond au nombre de pages différentes auxquelles Google a accédé. C’est donc un aggregat sur un an qui ne présente (à mon avis) que peu d’intérêt.

En revanche, les autres indicateurs sont une mine d’or pour améliorer votre référencement :

  • Non selectionnées : il s’agît des pages que Google a crawlé mais n’a pas ajouté à son index. Les raisons peuvent être diverses, mais en règle générale ce sont des pages qui présentent soit un contenu dupliqué, soit des redirections vers d’autres pages (ex: rel=”canonical”, redirect 301…). Si le nombre de pages non selectionnées vous paraît élevé par rapport au nombre de pages indexées, vous avez probablement un certain travail à fournir sur la gestion de vos urls, ou sur le nettoyage de contenu dupliqué. 
  • Pages bloquées par le fichier robots.txt

Google a donc l’air de faire preuve d’une grande transparence. De là à espérer que Google nous permette de télécharger la liste de ces pages, cela me paraît peu probable. Dommage… :-P