Episode 4 : Sitemaps (based on a true story)

Résumé des épisodes précédents :

Bot dit le Crawler récupère des pages sur le web en les suivant de lien en lien. Il se démène ainsi de site en site en suivant les meilleurs liens. Il essaie d’imiter son maître le grand Humphrey Bogart qui lui, suit toujours la bonne piste. Ce n’est pas le genre de type à se laisser embarquer n’importe où.

Mais Bot est perfectionniste. Il a le sentiment qu’il ne fait pas son travail à fond. Quand il s’arrête de travailler sur un site qu’on lui a confié, il n’est jamais sûr d’avoir fait le tour du sujet et d’avoir récupéré l’ensemble des pages du site.

C’est le genre de trucs qui énerve son client Ted dit le Webmaster. Lui, il aimerait qu’on s’occupe de son affaire à fond.

Pour régler tout cela, Bot a une idée : il va demander à Ted de tout lui raconter, tout ce qu’il sait sur lui, ainsi Bot pourra mieux faire son job.

Bot est un type qui se tient au courant des choses et il sait que dans le milieu maintenant, on parle beaucoup de Sitemaps. Il va maintenant le proposer à ses clients.

La méthode est simple et sans bavure : cela consiste à mettre en place un fichier sur son site qui indique toutes les urls que son site contient ainsi que des meta-données sur ces urls comme leur fréquence de changement, etc.

Ce fichier est en xml et ressemble à cela :

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
</url>
</urlset>

Essentiellement, une grande liste d’urls.

Pour indiquer à Bot où ce fichier se trouve, Ted va aussi rajouter dans son fichier robots.txt, la ligne suivante :

Sitemap: http://www.example.com/sitemap.xml

Mais Bot sait que tous ses clients ne sont pas aussi clean que Ted. Il sait qu’il y en a des véreux, des qui vous emmènent sur une fausse piste pour vous détourner de la défense de la veuve et de l’orphelin.

Bot est un gars sympa mais faut pas lui raconter de crasses. Quand on lui file une liste d’urls, il la vérifie. Et si on essaye de lui refourguer des trucs en double, des trucs qui n’ont rien à voir avec la semoule, eh bien, il dit “Stop Bot” et passe à une autre affaire.

Sitemaps est un protocole historiquement proposé par Google, puis discuté par MSN, Yahoo et Ask. Il est aujourd’hui devenu un standard qui est implémenté par Google, Yahoo, Ask et maintenant Exalead depuis juillet 2007.

Plus d’informations sur http://www.sitemaps.org/fr/

Sébastien

richard@exalead.com'

richardsebastien