Lorsque l'indexation du site par VoilaBot génère un trafic excessif, il faut prendre des mesures visant à empêcher le crawl aléatoire.
Le Bot du moteur de recherche Voilà indéxe les sites de manière particulière. Si googlebot crawl la toile en passant d'url en url, pour le VoilàBot on doit pouvoir penser que le principe est identique ou s'en rapproche.
Ayant des doutes sur un nombre important de pages en erreurs 404, des mesures s'imposent.
Un petit script permet de tracer quelles sont les pages en erreur 404.
Un second script permet de récupérer les valeurs de variables serveurs puis un envoi mail.
Le tout est mis en place sur une partie du site ayant peu de fréquentation.
Rapidement le résultat arrive puis se confirme, le nom d'agent est celui de Voilà Bot, les pages recherchées et inexistantes sont notées.
Aussi bizarre que ce cela puisse paraître, il semble que VoilàBot tente d'indexer des pages qui n'existent pas, et qui n'ont jamais existé : le site est écrit en php, il n'y a aucune page en asp, VoilàBot cherche des url portant l'extension asp.
De plus aucun lien externe ne pointe vers des pages en asp, ces pages ne figurent pas notamment dans les pages en erreurs retournées par la console de Google Webmaster Tool.
Il y a ainsi plus de pages en erreurs retournées par VoilàBot que l'équivalent chez Googlebot, alors que ce dernier indexe quotidiennement cinq fois plus de pages.
Une question au support de voilàbot est finalement envoyée avec une réponse certes rapide, mais insuffisante (les liens externes sur la raison de ce crawl plutôt aléatoire.
Selon l'apport que représente le moteur de recherche voilà, une non indéxation peut être mise en place : il s'agit d'empêcher VoilàBot de rentrer sur le site
L'instruction est facile à mettre en place au niveau du fichier .htaccess
RewriteCond %{HTTP_USER_AGENT} VoilàBot
RewriteRule .* - [F,L]
Cette instruction est plus forte qu'une instruction dans le fichier robots.txt que le bot peut ignorer
User-agent: VoilàBot Disallow: /
Article écrit par Janol le 24/01/2009 (Hits 6164 - Catégorie : Référencement)
Cet article n'a pas encore été commenté. Vous pouvez vous exprimer en remplissant le formulaire ci-dessous.
Autres publications Référencement
Faut-il accepter l'indexation de GPTBot ? Depuis l'arrivée de l'intelligence artificielle dans nos vies, bien des domaines sur internet se posent des questions, les webmaster sont ainsi concernés, se demandant si l'indexation de leur site par GPTBot est profitable.
Les pages explorées et non indexées de la search console Comment analyser les pages de la search console qui sont répertoriées par Google comme explorées mais non indexées. Faut-il demander leur indexation ou n'y aurait-il pas quelque chose de mieux à faire. (écrit le 07/08/2020 - 5.936 lectures)
Google Analytics et la Search console Google Comment Google Analytics et la Search console Google fonctionnent. Quelle est la différence entre ces outils ? Est ce qu'ils interagissent entre eux ? (écrit le 14/09/2019 - 6.470 lectures)
Référencement du site internet et de son suivi Voyons des éléments essentiels dans le référencement du site et de son suivi. Cet article va ainsi compléter notre rubrique sur le référencement web. (écrit le 27/06/2011 - 6.673 lectures)
Référencement selon Google instant Le référencement de sites web évolue et ce en fonction du paysage du web sans cesse modifié par les acteurs. Quels sont ces acteurs à prendre en compte pour être mieux référencé dans l'instant. (écrit le 27/09/2010 - 6.996 lectures)
Google nouveautés dans les résultats Google fait plus souvent dans l'apport de nouveaux outils, que dans la révision des plus anciens. En ce mois de mai 2010, les résultats sont présentés différemment avec de nouveaux outils. (écrit le 06/05/2010 - 6.326 lectures)
Les outils Google pour Webmaster Google propose des outils à destination des webmasters, voyons quels sont ils et comment les utiliser pour ses sites web. (écrit le 14/10/2009 - 7.756 lectures)
Pagerank minimum Quel est la valeur du pagerank minimum, a partir de quand doit t-on remettre en question son référencement, proposition de solution. (écrit le 30/10/2008 - 6.310 lectures)
Balise title manquante et Google webmaster tools Google webmaster tools aide le webmaster a présenter un site indexable et pertinent pour les internautes, mais quelque fois il pose des pièges au webmaster : voici le cas de la balise title manquante. (écrit le 06/08/2008 - 6.078 lectures)
Augmenter le nombre de visiteurs de son site Le référencement dans les moteurs de recherche doit aller jusqu'à la visite du visiteur, la simple visibilité du site ne suffit pas. Les statistiques de google aident à connaître les pages ainsi concernées. (écrit le 23/03/2008 - 7.642 lectures)
Analyse de balise Meta Google Webmaster Tools analyse des balises méta des sites en constituant un rapport d'anomalie précieux. (écrit le 14/12/2007 - 9.584 lectures)
Choix d'un nom de domaine internet Choisir le nom de domaine n'est pas neutre : au moins deux acteurs principaux du web sont réactifs par rapport à ce choix. (écrit le 07/06/2006 - 9.949 lectures)
Visibilité d'un site web La visibilité d'un site web est un aspect du référencement que le webmaster doit surveiller et améliorer. (écrit le 01/06/2006 - 11.776 lectures)
Acheter des mots-clés Alternative au référencement ou complément de stratégie : l'achat de mots-clés ouvre la porte vers un trafic qualifié. (écrit le 01/04/2006 - 16.865 lectures)
Première position Être premier sur tous les moteurs de recherche, voila qui intéresse chaque site web. Mais est-ce une bonne stratégie ? (écrit le 05/04/2005 - 8.819 lectures)
Niveau de référencement Les sites web ne sont pas lus par des lecteurs uniquement humains. (écrit le 11/10/2004 - 7.388 lectures)
Référencement par liens Après les balises META, c'est autour des liens que le webmaster devra réfléchir pour améliorer la position de son site (écrit le 16/06/2004 - 6.944 lectures)
ABC Webmaster Les termes utiles au Webmaster de A comme algorithme à Z comme zinzin. Ces définitions sont données dans une optique de référencement. (écrit le 09/11/2003 - 7.972 lectures)
Référencement et mots clés Une Vraie question relative au référencement de site, et une réelle réponse, à lire au second degré (instructive). (écrit le 14/09/2003 - 9.883 lectures)
Depuis l'arrivée de l'intelligence artificielle dans nos vies, bien des domaines sur internet se posent des questions, les webmaster sont ainsi concernés, se demandant si l'indexation de leur site par GPTBot est profitable.
Comment analyser les pages de la search console qui sont répertoriées par Google comme explorées mais non indexées. Faut-il demander leur indexation ou n'y aurait-il pas quelque chose de mieux à faire.
Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.
Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la capture de telles pages, pour contrôler en un coup d'oeil le résultat.
Optimiser un site web avec du responsive design est un pas de plus fait vers l'utilisateur final Pour autant, si une page du site a un poids de plusieurs méga, l'utilisateur risque, s'il est sur un téléphone mobile, de partir avant que la page ne soit complétement chargée.
Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).