SEM - SEO - SOS !

Tag - Robots.txt

Fil des billets - Fil des commentaires

Définition : Les liens sponsorisés

Les liens sponsorisés sont les liens commerciaux apparaissant en marge des résultats des moteurs de recherche.

Cette technique du publicité c'est étendu aux sites web. Il s'agit de liens accompagnés d'un petit texte qui a pour but d'inciter l'internaute à se diriger vers le site web d'un annonceur.

Différentes plates-formes de liens sponsorisés existent. Les plus connus sont Google Adwords, Yahoo Search Marketing, MSN adCenter. Ces deux premiers disposent également d'un réseau de sites internet afin de disséminer des annonces à travers le web.

D'autres réseaux de liens sponsorisés indépendants ou exclusifs existent. Citons pour ce dernier la régie pub de facebook qui permet, grâce à une interphase simple, de diffuser des liens sponsorisés sur le site.

Connaitre l'indexation d'un site en maitrisant les commandes site: inurl: intext: de Google

J'ai lu sur le site de Monsieur Durand l'utilisation qu'il pouvait faire de la commande site: dans Google. Je vais plus loin en lui indiquant comment finasser avec la commande. Dans le milieu professionnel, les éditeurs de site vont plus loin, ils insèrent des marqueurs invisibles en bas de page afin de suivre leur indexation. C’est un indicateur stratégique qui permet de suivre l’évolution de son site dans les moteurs. Quel est le raisonnement à suivre en la matière ? Il faut le savoir, Google dispose de deux index. L’index primaire qui est consulté en priorité par le moteur, les résultats s’y trouvant seront donc les premiers à sortir. Et l’index secondaire, qui vous sortira ce que Google appel les « résultats complémentaires ». Pour alléger son index, Google ne référence plus les bas de page de son annexe secondaire. Il devient donc simple de faire la distinction. Toutes les pages qui sortent et qui comprennent le bas de page font partie de l’index primaire. Le reste fait partie de l’index secondaire. Exemple :

  • Connaitre l'indexation primaire dans Google

Allez vous promener sur le site de Kelkoo France, dans le code source, en bas de page il existe un marquer de date qui permet à Kelkoo de savoir quand la page a été indexée. Prenez le mot generated afin de connaître l’indexation primaire et tapez :

site:fr.kelkoo.com intext:generated http://www.google.com/search?num=100&hl=en&lr=&as_qdr=all&q=site%3Afr.kelkoo.com+intext%3Agenerated&btnG=Search
  • Connaitre l'indexation secondaire dans Google

Pour connaître l’indexation primaire + secondaire limitez vous à la commande site:

site:fr.kelkoo.com http://www.google.com/search?num=100&hl=en&lr=&as_qdr=all&q=site%3Afr.kelkoo.com&btnG=Search

La différence des deux constitue le secondaire.

  • Connaitre l'indexation ciblée dans Google

Allons plus loin, comment connaître son indexation par catégorie ? Cette fois ci, finassons avec la commande inurl: pour connaître les pages indexées par catégorie cette fois-ci sur Priceminister. (Le principe est le même pour votre blog).

site:fr.http://www.priceminister.com inurl:Informatique_Ordinateur-portable http://www.google.com/search?q=site:fr.http://www.priceminister.com+inurl:Informatique_Ordinateur-portable&num=100&hl=en&lr=&as_qdr=all&filter=0

Cette commande vous donne le nombre de pages indexées dans la catégorie Ordinateurs portable de PriceMinister.

Ainsi, vous pouvez utiliser conjointement les commandes site: , intext: , inurl: afin de finacer au mieux vos requêtes et avoir les informations les plus précises sur vos concurrents ou votre propre blog.

Google.co.uk nous joue des tours !!!

Depuis quelques jours, tous les résultats de la commande site: de Google UK nous sort uniquement des "résultats complémentaires". Ceci ne ce produit que lorsque l'option "pages from the UK" si cette option n'est pas cochée, tout est normal. Je n'ai pas d'explication pour le moment. Ca me ferait mal de penser à un bug Google. A voir à l'adresse suivante :
http://www.google.co.uk/search?hl=en[....]
La preuve en image

Que cache Yahoo derrière l'attribut Robots-NoContent ?

En lisant le blog d’abondance sur l’attribut nocontent mis en place par Yahoo, une idée m’est venue. Replaçons les choses dans leur contexte. Yahoo à lancé il y a quelques jours un attribut permettant de dire à ses robots si le contenu, situé dans une balise, présente de l’intérêt pour l’internaute. Ainsi, on peut dire au moteur de recherche quel est le contenu le plus essentiel de notre page. La balise s’utilise de la manière suivante :
<div class="robots-nocontent">This is the navigational menu of the site and is common on all pages. It contains many terms and keywords not related to this site</div> <span class="robots-nocontent">This is the site header that is present on all pages of the site and is not related to any particular page</span> <p class="robots-nocontent">This is a boilerplate legal disclaimer required on each page of the site</p>
cf : http://www.ysearchblog.com/archives/000444.html Le contenu de ces balises ne sera pas indéxé. D’après moi, l’idée qui sous-tend cette mise en place est d’exclure de l’indexation les parties du site qui ne présenteraient que peu d’intérêt pour l'internaute et ainsi de libérer de l’espace dans les bases de données de Yahoo afin que celui-ci index plus de pages sur le web. Voilà mon interprétation de la mesure et si elle s’avère exacte, nous avons tout intérêt à mettre en place cette attribut, surtout pour les sites de très grande ampleur. Plus de pages sont mangées par les moteurs plus nous avons de chance de sortir sur diverses requetes.

Concepts à comprendre pour le référencement naturel de son site.

Petite synthèse des documents utiles à connaitre.
  • Le TrustRank
Quelques docs sur les bases du référencement :
  • Le référencement par Moteurzine (un peu vieux)
  • Le référencement par 1st-position
  • Le référencement par Dixxit

Comment se gaver de MP3 grâce à Google ou comment trouver des MP3 grâce à Google

Pour cela, rien de plus simple, attrapez votre petit clavier et pianotez les mots clefs suivants:
Mylène farmer "intitle:index of" mp3
En remplaçant "Mylène Farmer" par le nom de votre Artiste, Chanson, Album etc... et le tour est joué.

Connaitre son nombre de pages indexées dans les moteurs de recherche

Petite astuce aujourd'hui. Vous aimeriez savoir combien de pages de votre site web sont connues par Google. Rien de plus simple, il vous suffit de pianoter la ligne suivante sur tous les grands moteurs de recherche.
site:www.liwio.com
Et voilà, le tour est joué. Mon nombre de pages est complètement minable mais c'est parce que mon blog est récent. Allez, autre astuce dans le même genre, comment connaitre les sites qui pointent vers vous.
link:www.liwio.com
Et voilà vous savez l'essentiel. Dans quelques jous, je vous donne l'intégralité des fonctions spéciales qui existent et comment en tirer le meilleur partie. En effet on peu aussi finacer. Pour trouver des MP3 sur Google par exemple. PS: bon, je reste dans le basic pour le moment on va monter en puissance rapidement. Je vous laisse deux chansons qui me rappellent le Pérou Hector y Tito Feat Don Omar - Baila Morena Don Omar - Luna

Limiter l'indexation de son site.

  1. Robots.txt

La capacité d'absorption de page par un moteur de recherche est parfois limitée, il faut le savoir. Ainsi, pour un particulier, point besoin de s’inquiéter, pour une entreprise c’est autre chose.

Prenons l’exemple d’un comparateur de prix. Ce type de site web génère des milliers de pages, voir des millions. Ainsi, Google (pour ne citer que lui) n’est pas forcément capable d’absorber toutes les pages de ce site. L’indexation serait bien trop longue et bien trop grosse pour que cela soit rentable. Coté comparateur il faut donc faire des choix et dire aux moteurs de recherche, quelles pages il faut indexer en priorité, quelles pages il faut laisser de coté. Ca vous le déterminez par un calcule de retour sur l’investissement. L’un de ces calculs pourrait être le suivant : X pages indexées dans telle catégorie me rapporte Y visites, si ce ratio est faible, il faut peut-être privilégier une autre catégorie. Ce calcule dépend essentiellement de votre modèle économique.

Bref tout ça pour dire qu’il existe deux méthodes pour limiter cette indexation. La méthode massive, par le robots.txt, la méthode sélective par la balise meta robots.

Le robots.txt est un fichier que s’insère à la racine de votre site web, (c'est-à-dire dans le répertoire principal). Dedans vous y inscrivez le chemin relatif de tout ce que vous ne voulez pas voir indexer. Très bel exemple chez Kelkoo dont je reprends une partie du fichier robots.txt, ci-dessous. http://fr.kelkoo.com/robots.txt
Contenu du fichier robots.txt Explication (à ne pas inclure dans le fichier)
User-agent: * Disallow: /modules/ Disallow: /customs/ Disallow: /content/ Disallow: /next.jsp Disallow: /search.jsp Disallow: /row_gateway.jsp Disallow: /ctl/do/error404 Disallow: /ctl/do/error500 Disallow: /ctl/do/error403 User-agent: * signifie que tous les moteurs sont concernés par l’exclusion qui suit. Le 1er bloc exclut des dossiers entiers Le 2ème bloc exclut toutes les pages web commençants par /next.jsp ex:/next.jsp?canonEOS400 Le 3ème bloc exclut les pages d’erreurs personnalisées qui pourraient apparaître sur le site.
  1. balise meta Robots

Là, on fait dans la finesse. Plutôt que d’exclure tout un type de page, on exclut des pages au cas par cas.
  • Soit on exclut une bonne fois pour toute une page unique. Ex : une page de log à un blog
  • Soit on affecte une condition qui exclut si la condition se réalise. Ex : Si la page contient le mot « sexe » insérer la balise méta d’exclusion.
La balise méta est la suivante :
<meta name=”Robots” content=”NOINDEX,FOLLOW” />
et doit être placée entre les balises <head></head> de votre site. Cette balise signifie que la page ne doit pas être indexée mais que les moteurs de recherche doit tout de même suivre les liens de cette page. Voilou, je vous laisse mettre tout ça en place, si vous avez des difficultés ou si je n’ai pas été clair n’hésitez pas à me laisser un commentaire.