Empêcher l'indexation aléatoire du VoilaBot

  1. Pages Webmaster
  2.  > 
  3. Référencement


Lorsque l'indexation du site par VoilaBot génère un trafic excessif, il faut prendre des mesures visant à empêcher le crawl aléatoire.


Le Bot du moteur de recherche Voilà indéxe les sites de manière particulière.
Si googlebot crawl la toile en passant d'url en url, pour le VoilaBot on doit pouvoir penser que le principe est identique ou s'en rapproche.


Ayant des doutes sur un nombre important de pages en erreurs 404, des mesures s'imposent.



Un petit script permet de tracer quelles sont les pages en erreur 404.

Un second script permet de récupérer les valeurs de variables serveurs puis un envoi mail.

Le tout est mis en place sur une partie du site ayant peu de fréquentation.


Rapidement le résultat arrive puis se confirme, le nom d'agent est celui de Voila Bot, les pages recherchées et inexistantes sont notées.


Aussi bizarre que ce cela puisse paraître, il semble que VoilaBot tente d'indexer des pages qui n'existent pas, et qui n'ont jamais existé : le site est écrit en php, il n'y a aucune page en asp, VoilaBot cherche des url portant l'extension asp.


De plus aucun lien externe ne pointe vers des pages en asp, ces pages ne figurent pas notamment dans les pages en erreurs retournées par la console de Google Webmaster Tool.

Il y a ainsi plus de pages en erreurs retournées par VoilaBot que l'équivalent chez Googlebot, alors que ce dernier indexe quotidiennement cinq fois plus de pages.



Une question au support de voilabot est finalement envoyée avec une réponse certes rapide, mais insuffisante (les liens externes sur la raison de ce crawl plutôt aléatoire.



Selon l'apport que représente le moteur de recherche voila, une non indéxation peut être mise en place : il s'agit d'empêcher VoilaBot de rentrer sur le site

L'instruction est facile à mettre en place au niveau du fichier .htaccess



RewriteCond %{HTTP_USER_AGENT} VoilaBot

RewriteRule .* - [F,L]



Cette instruction est plus forte qu'une instruction dans le fichier robots.txt que le bot peut ignorer



User-agent: VoilaBot
Disallow: /



Article écrit par Janol le 24/01/2009
(Hits 4594
- Catégorie : Référencement)

Faites passer - Imprimer

Commentaires

Cet article n'a pas encore été commenté.
Vous pouvez vous exprimer en remplissant le formulaire ci-dessous.


Autres publications Référencement

Les pages explorées et non indexées de la search console
Comment analyser les pages de la search console qui sont répertoriées par Google comme explorées mais non indexées. Faut il les demander leur indexation ou n'y aurait-i pas quelque chose de mieux à faire.
(écrit le 07/08/2020 - 188 lectures)

Google Analytics et la Search console Google
Comment Google Analytics et la Search console Google fonctionnent. Quelle est la différence entre ces outils ? Est ce qu'ils interagissent entre eux ?
(écrit le 14/09/2019 - 1.974 lectures)

Référencement du site internet et de son suivi
Voyons des éléments essentiels dans le référencement du site et de son suivi. Cet article va ainsi compléter notre rubrique sur le référencement web.
(écrit le 27/06/2011 - 4.859 lectures)

Référencement selon Google instant
Le référencement de sites web évolue et ce en fonction du paysage du web sans cesse modifié par les acteurs. Quels sont ces acteurs à prendre en compte pour être mieux référencé dans l'instant.
(écrit le 27/09/2010 - 5.353 lectures)

Google nouveautés dans les résultats
Google fait plus souvent dans l'apport de nouveaux outils, que dans la révision des plus anciens. En ce mois de Mai 2010, les résultats sont présentés différemment avec de nouveaux outils.
(écrit le 06/05/2010 - 4.797 lectures)

Les outils Google pour Webmaster
Google propose des outils à destination des webmasters, voyons quels sont ils et comment les utiliser pour ses sites web.
(écrit le 14/10/2009 - 6.173 lectures)

Pagerank minimum
Quel est la valeur du pagerank minimum, a partir de quand doit t-on remettre en question son référencement, proposition de solution.
(écrit le 30/10/2008 - 4.785 lectures)

Balise title manquante et Google webmaster tools
Google webmaster tools aide le webmaster a présenter un site indexable et pertinent pour les internautes, mais quelque fois il pose des pièges au webmaster : voici le cas de la balise title manquante.
(écrit le 06/08/2008 - 4.688 lectures)

Augmenter le nombre de visiteurs de son site
Le référencement dans les moteurs de recherche doit aller jusqu'à la visite du visiteur, la simple visibilité du site ne suffit pas. Les statistiques de google aident à connaître les pages ainsi concernées.
(écrit le 23/03/2008 - 6.353 lectures)

Analyse de balise Meta
Google Webmaster Tools analyse des balises méta des sites en constituant un rapport d'anomalie précieux.
(écrit le 14/12/2007 - 8.019 lectures)

Choix d'un nom de domaine internet
Choisir le nom de domaine n'est pas neutre : au moins deux acteurs principaux du web sont réactifs par rapport à ce choix.
(écrit le 07/06/2006 - 8.104 lectures)

Visibilité d'un site web
La visibilité d'un site web est un aspect du référencement que le webmaster doit surveiller et améliorer.
(écrit le 01/06/2006 - 10.149 lectures)

Acheter des mots-clés
Alternative au référencement ou complément de stratégie : l'achat de mots-clés ouvre la porte vers un trafic qualifié.
(écrit le 01/04/2006 - 15.353 lectures)

Première position
Être premier sur tous les moteurs de recherche, voila qui intéresse chaque site web. Mais est-ce une bonne stratégie ?
(écrit le 05/04/2005 - 7.576 lectures)

Niveau de référencement
Les sites web ne sont pas lus par des lecteurs uniquement humains.
(écrit le 11/10/2004 - 6.132 lectures)

Référencement par liens
Après les balises META, c'est autour des liens que le webmaster devra réfléchir pour améliorer la position de son site
(écrit le 16/06/2004 - 5.643 lectures)

ABC Webmaster
Les termes utiles au Webmaster de A comme algorithme à Z comme zinzin.
Ces définitions sont données dans une optique de référencement.
(écrit le 09/11/2003 - 6.699 lectures)

Référencement et mots clés
Une Vraie question relative au référencement de site, et une réelle réponse, à lire au second degré (instructive).
(écrit le 14/09/2003 - 8.460 lectures)



Tutoriels Webmaster

Référencement :

Comment analyser les pages de la search console qui sont répertoriées par Google comme explorées mais non indexées. Faut il les demander leur indexation ou n'y aurait-i pas quelque chose de mieux à faire.


Référencement :

Comment Google Analytics et la Search console Google fonctionnent. Quelle est la différence entre ces outils ? Est ce qu'ils interagissent entre eux ?


Scripts :

Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.


Scripts :

Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la captures de telles pages, pour contrôler en un coup d'oeil le résultat.


Conception :

Optimiser un site web avec du responsive design est un pas de plus fait vers l'utilisateur final
Pour autant, si une page du site a un poids de plusieurs méga, l'utilisateur risque, si il est sur un téléphone mobile, de partir avant que la page ne soit complétement chargée.


Outils :

Comment gérer les erreurs 404 not found sur le fichier browserconfig.xml, alors que celui ci est demandé par le navigateur.


Scripts :

Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).


Scripts :

L'attribut Placeholder, permettant en HTML5 de renseigner le label d'un champs input, ne fonctionne pas sous Internet Explorer. Voici un script JavaScript simple et efficace à insérer pour contourner ce manque de fonctionnalité.


Pages webmaster
Actu Webmaster

Thèmes Phortail