Empêcher l'indexation aléatoire du VoilaBot

Navigation:

  1. Pages Webmaster
  2.  > 
  3. Référencement


Lorsque l'indexation du site par VoilaBot génère un trafic excessif, il faut prendre des mesures visant à empêcher le crawl aléatoire.


Le Bot du moteur de recherche Voilà indéxe les sites de manière particulière.
Si googlebot crawl la toile en passant d'url en url, pour le VoilaBot on doit pouvoir penser que le principe est identique ou s'en rapproche.


Ayant des doutes sur un nombre important de pages en erreurs 404, des mesures s'imposent.



Un petit script permet de tracer quelles sont les pages en erreur 404.

Un second script permet de récupérer les valeurs de variables serveurs puis un envoi mail.

Le tout est mis en place sur une partie du site ayant peu de fréquentation.


Rapidement le résultat arrive puis se confirme, le nom d'agent est celui de Voila Bot, les pages recherchées et inexistantes sont notées.


Aussi bizarre que ce cela puisse paraître, il semble que VoilaBot tente d'indexer des pages qui n'existent pas, et qui n'ont jamais existé : le site est écrit en php, il n'y a aucune page en asp, VoilaBot cherche des url portant l'extension asp.


De plus aucun lien externe ne pointe vers des pages en asp, ces pages ne figurent pas notamment dans les pages en erreurs retournées par la console de Google Webmaster Tool.

Il y a ainsi plus de pages en erreurs retournées par VoilaBot que l'équivalent chez Googlebot, alors que ce dernier indexe quotidiennement cinq fois plus de pages.



Une question au support de voilabot est finalement envoyée avec une réponse certes rapide, mais insuffisante (les liens externes sur la raison de ce crawl plutôt aléatoire.



Selon l'apport que représente le moteur de recherche voila, une non indéxation peut être mise en place : il s'agit d'empêcher VoilaBot de rentrer sur le site

L'instruction est facile à mettre en place au niveau du fichier .htaccess



RewriteCond %{HTTP_USER_AGENT} VoilaBot

RewriteRule .* - [F,L]



Cette instruction est plus forte qu'une instruction dans le fichier robots.txt que le bot peut ignorer



User-agent: VoilaBot
Disallow: /



Article écrit par Janol le 24/01/2009
(Hits 3902
- Catégorie : Référencement)

Faites passer - Imprimer

Commentaires

Cet article n'a pas encore été commenté.
Vous pouvez vous exprimer en remplissant le formulaire ci-dessous.


Autres publications Référencement

Google Analytics et la Search console Google
Comment Google Analytics et la Search console Google fonctionnent. Quelle est la différence entre ces outils ? Est ce qu'ils interagissent entre eux ?
(écrit le 14/09/2019 - 672 lectures)

Référencement du site internet et de son suivi
Voyons des éléments essentiels dans le référencement du site et de son suivi. Cet article va ainsi compléter notre rubrique sur le référencement web.
(écrit le 27/06/2011 - 4.109 lectures)

Référencement selon Google instant
Le référencement de sites web évolue et ce en fonction du paysage du web sans cesse modifié par les acteurs. Quels sont ces acteurs à prendre en compte pour être mieux référencé dans l'instant.
(écrit le 27/09/2010 - 4.656 lectures)

Google nouveautés dans les résultats
Google fait plus souvent dans l'apport de nouveaux outils, que dans la révision des plus anciens. En ce mois de Mai 2010, les résultats sont présentés différemment avec de nouveaux outils.
(écrit le 06/05/2010 - 4.123 lectures)

Les outils Google pour Webmaster
Google propose des outils à destination des webmasters, voyons quels sont ils et comment les utiliser pour ses sites web.
(écrit le 14/10/2009 - 5.488 lectures)

Pagerank minimum
Quel est la valeur du pagerank minimum, a partir de quand doit t-on remettre en question son référencement, proposition de solution.
(écrit le 30/10/2008 - 4.087 lectures)

Balise title manquante et Google webmaster tools
Google webmaster tools aide le webmaster a présenter un site indexable et pertinent pour les internautes, mais quelque fois il pose des pièges au webmaster : voici le cas de la balise title manquante.
(écrit le 06/08/2008 - 4.010 lectures)

Augmenter le nombre de visiteurs de son site
Le référencement dans les moteurs de recherche doit aller jusqu'à la visite du visiteur, la simple visibilité du site ne suffit pas. Les statistiques de google aident à connaître les pages ainsi concernées.
(écrit le 23/03/2008 - 5.710 lectures)

Analyse de balise Meta
Google Webmaster Tools analyse des balises méta des sites en constituant un rapport d'anomalie précieux.
(écrit le 14/12/2007 - 7.361 lectures)

Choix d'un nom de domaine internet
Choisir le nom de domaine n'est pas neutre : au moins deux acteurs principaux du web sont réactifs par rapport à ce choix.
(écrit le 07/06/2006 - 7.469 lectures)

Visibilité d'un site web
La visibilité d'un site web est un aspect du référencement que le webmaster doit surveiller et améliorer.
(écrit le 01/06/2006 - 9.483 lectures)

Acheter des mots-clés
Alternative au référencement ou complément de stratégie : l'achat de mots-clés ouvre la porte vers un trafic qualifié.
(écrit le 01/04/2006 - 14.703 lectures)

Première position
Être premier sur tous les moteurs de recherche, voila qui intéresse chaque site web. Mais est-ce une bonne stratégie ?
(écrit le 05/04/2005 - 6.948 lectures)

Niveau de référencement
Les sites web ne sont pas lus par des lecteurs uniquement humains.
(écrit le 11/10/2004 - 5.500 lectures)

Référencement par liens
Après les balises META, c'est autour des liens que le webmaster devra réfléchir pour améliorer la position de son site
(écrit le 16/06/2004 - 4.988 lectures)

ABC Webmaster
Les termes utiles au Webmaster de A comme algorithme à Z comme zinzin.
Ces définitions sont données dans une optique de référencement.
(écrit le 09/11/2003 - 6.069 lectures)

Référencement et mots clés
Une Vraie question relative au référencement de site, et une réelle réponse, à lire au second degré (instructive).
(écrit le 14/09/2003 - 7.818 lectures)



Tutoriels Webmaster

Référencement :

Comment Google Analytics et la Search console Google fonctionnent. Quelle est la différence entre ces outils ? Est ce qu'ils interagissent entre eux ?


Scripts :

Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.


Scripts :

Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la captures de telles pages, pour contrôler en un coup d'oeil le résultat.


Conception :

Optimiser un site web avec du responsive design est un pas de plus fait vers l'utilisateur final
Pour autant, si une page du site a un poids de plusieurs méga, l'utilisateur risque, si il est sur un téléphone mobile, de partir avant que la page ne soit complétement chargée.


Outils :

Comment gérer les erreurs 404 not found sur le fichier browserconfig.xml, alors que celui ci est demandé par le navigateur.


Scripts :

Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).


Scripts :

L'attribut Placeholder, permettant en HTML5 de renseigner le label d'un champs input, ne fonctionne pas sous Internet Explorer. Voici un script JavaScript simple et efficace à insérer pour contourner ce manque de fonctionnalité.


Sécurité :

Poster un spam sur un forum est pour certains acteurs du web un exercice amusant. Pour d'autres c'est un moment de réflexion obligatoire pour éviter de se faire spammer.
Voyons quelles sont les solutions pour éliminer les posts des spameurs tout en gardant ceux des internautes.


Pages webmaster
Actu Webmaster

Thèmes Phortail