-
Robots.txt
La capacité d'absorption de page par un moteur de recherche est parfois limitée, il faut le savoir. Ainsi, pour un particulier, point besoin de sinquiéter, pour une entreprise cest autre chose.
Prenons lexemple dun comparateur de prix. Ce type de site web génère des milliers de pages, voir des millions. Ainsi, Google (pour ne citer que lui) nest pas forcément capable dabsorber toutes les pages de ce site. Lindexation serait bien trop longue et bien trop grosse pour que cela soit rentable. Coté comparateur il faut donc faire des choix et dire aux moteurs de recherche, quelles pages il faut indexer en priorité, quelles pages il faut laisser de coté. Ca vous le déterminez par un calcule de retour sur linvestissement. Lun de ces calculs pourrait être le suivant : X pages indexées dans telle catégorie me rapporte Y visites, si ce ratio est faible, il faut peut-être privilégier une autre catégorie. Ce calcule dépend essentiellement de votre modèle économique.
Bref tout ça pour dire quil existe deux méthodes pour limiter cette indexation. La méthode massive, par le robots.txt, la méthode sélective par la balise meta robots.
Le robots.txt est un fichier que sinsère à la racine de votre site web, (
c'est-à-dire dans le répertoire principal). Dedans vous y inscrivez le chemin relatif de tout ce que vous ne voulez pas voir indexer.
Très bel exemple chez Kelkoo dont je reprends une partie du fichier robots.txt, ci-dessous.
http://fr.kelkoo.com/robots.txt
| Contenu du fichier robots.txt |
Explication (à ne pas inclure dans le fichier) |
| User-agent: *
Disallow: /modules/
Disallow: /customs/
Disallow: /content/
Disallow: /next.jsp
Disallow: /search.jsp
Disallow: /row_gateway.jsp
Disallow: /ctl/do/error404
Disallow: /ctl/do/error500
Disallow: /ctl/do/error403 |
User-agent: * signifie que tous les moteurs sont concernés par lexclusion qui suit.
Le 1er bloc exclut des dossiers entiers
Le 2ème bloc exclut toutes les pages web commençants par /next.jsp ex:/next.jsp?canonEOS400
Le 3ème bloc exclut les pages derreurs personnalisées qui pourraient apparaître sur le site. |
-
balise meta Robots
Là, on fait dans la finesse. Plutôt que dexclure tout un type de page, on exclut des pages au cas par cas.
- Soit on exclut une bonne fois pour toute une page unique. Ex : une page de log à un blog
- Soit on affecte une condition qui exclut si la condition se réalise. Ex : Si la page contient le mot « sexe » insérer la balise méta dexclusion.
La balise méta est la suivante :
<meta name=Robots content=NOINDEX,FOLLOW />
et doit être placée entre les balises <head></head> de votre site. Cette balise signifie que la page ne doit pas être indexée mais que les moteurs de recherche doit tout de même suivre les liens de cette page.
Voilou, je vous laisse mettre tout ça en place, si vous avez des difficultés ou si je nai pas été clair nhésitez pas à me laisser un commentaire.