Indexer plus, indexer mieux – Introduction et épisode 1

La question qui suit généralement “Comment fais-je pour que mon site soit sur la première page de résultats ?” est en général “Mais pourquoi le moteur n’a pas référencé (toutes) mes pages ?”.

Petit rappel sur le fonctionnement d’un moteur: le moteur trouve les pages qu’il indexe soit parce qu’un humain lui a soumis (0,0001% des cas) soit en suivant un lien vu sur une page précédente. Donc, plus il y a de liens vers une page donnée, plus la probabilité qu’elle soit indexée est grande. Et un site perso sans lien avec le reste de l’univers a peu de chances de se trouver indexé par un moteur de recherche.

De plus, les pages accessibles uniquement à travers du Javascript ou des formulaires ne sont pas atteignables par le moteur et ne peuvent donc pas être indexées. Il n’y a effectivement pas de moyens pour le moteur de connaître l’intégralité des pages d’un site ni s’il lui en manque 10 ou 10000 (en dehors du protocole sitemaps dont je parlerai prochainement).

Néanmoins, il faut savoir que du point de vue du moteur le risque n’est pas la pénurie de liens mais plutôt le trop plein. Quelles en sont les raisons ?

Au travers d’une série de posts, je vais essayer de vous montrer que
certaines causes de cette abondance de liens sont normales et peuvent
donc être traitées facilement, mais que d’autres plus douteuses, voire
acrobatiques nécessitent ingéniosité et réactivité pour assurer la
qualité des résultats.

Les cas dits de bonne foi :

1 – Les sessions

A chaque fois que vous allez sur des sites type e-commerce, le site
vous propose une vue correspondant à votre session, toutes les urls
contiennent cet identifiant de session qui vous suivra pendant la
navigation. Le moteur peut ainsi sans le savoir récupérer 2000 fois la
page où l’on vendra la fameuse clé à molette de 13 version ronce de
noyer car l’url sera différente et le contenu aussi: nouveaux autres
produits conseillés, historique de navigation différent, nouvelles
promos, etc.

Ex. Cette url :
http://www.amazon.com/Stanley-92-716-Combination-Wrench-22-Piece/dp/B000JPUCT0/
ref=sr_1_7/002-6118145-0432018?ie=UTF8&s=hi&qid=1181650669&sr=1-7

a été obtenue en suivant des liens sur le site amazon. On s’aperçoit en
réalité que la plupart des paramètres viennent du contexte dans lequel
on a trouvé la page et un autre chemin dans le site aurait donné une
url différente.

En fait, seuls ces morceaux sont indispensables :

http://www.amazon.com/Stanley-92-716-Combination-Wrench-22-Piece/dp/B000JPUCT0/

2 – Les menus type calendriers

Un certain nombre de sites proposent de se balader dans les archives
en choisissant une date dans un calendrier. Explorer l’ensemble des
pages de 1970 à 2060 risque de prendre un peu de temps et d’être peu
rentable si le site propose 10 articles.

Ex:

http://www.ecvd.eu/index.php?option=com_events&task=view_month&Itemid=32
&year=2011&month=09&day=12

Ces deux cas ne sont, me direz-vous, pas si difficiles à régler et je serai globalement de votre avis.

Mais le problème vient surtout des cas suivants. Car, attention
scoop de l’année, sur les web, il y a aussi des méchants : des gens
prêts à tout pour atteindre le haut du classement des résultats.
Rappelez vous, vous en avez croisé dans le passé quand vous n’utilisiez
pas encore Exalead 😉

Au programme de notre revue des grands bourreurs d’urnes de moteurs de recherche :

  • Les fermes de liens et le bourrage de mots clés
  • L’intégration des flux RSS venant d’autres sites
  • Les labyrinthes à robots

Vous comprendrez ainsi que face à ces différentes tentatives, le
moteur se doit d’être conservateur et doit accorder un quota de pages à
chaque site.

Ce quota va dépendre de la notoriété du site, de la duplication de son contenu et de mille autres petits paramètres.

Restez en ligne.

Sebastien, Chef de cuisine Web

richard@exalead.com'

richardsebastien

Les commentaires sont fermés.