Empêcher l'indexation aléatoire du VoilaBot
Le Bot du moteur de recherche Voilà indéxe les sites de manière particulière.
Si googlebot crawl la toile en passant d'url en url, pour le VoilàBot on doit pouvoir penser que le principe est identique ou s'en rapproche.
Ayant des doutes sur un nombre important de pages en erreurs 404, des mesures s'imposent.
Un petit script permet de tracer quelles sont les pages en erreur 404.
Un second script permet de récupérer les valeurs de variables serveurs puis un envoi mail.
Le tout est mis en place sur une partie du site ayant peu de fréquentation.
Rapidement le résultat arrive puis se confirme, le nom d'agent est celui de Voilà Bot, les pages recherchées et inexistantes sont notées.
Aussi bizarre que ce cela puisse paraître, il semble que VoilàBot tente d'indexer des pages qui n'existent pas, et qui n'ont jamais existé : le site est écrit en php, il n'y a aucune page en asp, VoilàBot cherche des url portant l'extension asp.
De plus aucun lien externe ne pointe vers des pages en asp, ces pages ne figurent pas notamment dans les pages en erreurs retournées par la console de Google Webmaster Tool.
Il y a ainsi plus de pages en erreurs retournées par VoilàBot que l'équivalent chez Googlebot, alors que ce dernier indexe quotidiennement cinq fois plus de pages.
Une question au support de voilàbot est finalement envoyée avec une réponse certes rapide, mais insuffisante (les liens externes sur la raison de ce crawl plutôt aléatoire.
Selon l'apport que représente le moteur de recherche voilà, une non indéxation peut être mise en place : il s'agit d'empêcher VoilàBot de rentrer sur le site
L'instruction est facile à mettre en place au niveau du fichier .htaccess
RewriteCond %{HTTP_USER_AGENT} VoilàBot
RewriteRule .* - [F,L]
Cette instruction est plus forte qu'une instruction dans le fichier robots.txt que le bot peut ignorer
User-agent: VoilàBot
Disallow: /