Script de lecture de pages web et d'aide à la décision

Navigation:

  1. Pages Webmaster
  2.  > 
  3. Scripts


Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.


Si tous les particuliers avaient une formation de base sur les langages serveurs tels que python, ils joueraient avec les cours de bourses, se passant de prestations de courtiers en devises.
L'exemple est trivial à dessein, mais pourtant vrai

Et pour un webmaster :
Avoir l'information que le site web qu'il a inscrit dans son annuaire web est finalement fermé.
Avoir l'information que l'information qu'il attend de tel site web est finalement en ligne.
Avoir la possibilité de surveiller son propre contenu web sans naviguer au sein des 10.000 pages web dont il a la charge.

La puissance d'un simple script python.
Python est en langage serveur, intéressant pour un webmaster en ce sens qu'il est facilement abordable avec une courbe d'apprentissage rapide.
Les possibilités d'utilisation sont nombreuses, pour peu qu'on trouve le besoin.

l'algorithme en pseudo langage est simple
lire la page web
vérifier si telle information est présente
action si la vérification es vraie

exemple :
ouvrir l'url d'un site inscrit dans l'annuaire
si l'ouverture s'est bien passée : ok
si l'ouverture n'a pas pu se faire : le site est fermé

Exemple de script


import urllib2
fh = open("webannuaire.txt", "r")
fl =fh.readlines()
e=open("weblisteerreur.txt", "w+")

for x in fl:
try:
response = urllib2.urlopen(x)
page_source = response.read()
if "xxxxx" in page_source:
print "xxxxx for "+str(x)
f.write(x)
except:
print "Failed "+str(x)
e.write(x)
f.close
e.close


Ici le fichier webannuaire.txt contient la liste des sites web à visiter.
On comprendra que le site ouvert ne se fait pas via un navigateur, seul le contenu html est chargé dans la variable page_source.
Le contenu de la variable peut ensuite être interrogé.
Le script peut être modifié pour vérifier un contenu précis.



Article écrit par Janol le 12/10/2016
(Hits 5480
- Catégorie : Scripts)

Faites passer - Imprimer

Commentaires

Cet article n'a pas encore été commenté.
Vous pouvez vous exprimer en remplissant le formulaire ci-dessous.


Autres publications Scripts

Script de contrôle de page web selon la résolution, le navigateur
Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la captures de telles pages, pour contrôler en un coup d'oeil le résultat.
(écrit le 14/09/2016 - 2.160 lectures)

Site web adapté à la taille de l'écran
Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).
(écrit le 06/03/2014 - 6.883 lectures)

Placeholder sous IE
L'attribut Placeholder, permettant en HTML5 de renseigner le label d'un champs input, ne fonctionne pas sous Internet Explorer. Voici un script JavaScript simple et efficace à insérer pour contourner ce manque de fonctionnalité.
(écrit le 24/01/2014 - 4.616 lectures)

Rendre ses scripts asynchrones pour optimiser le chargement de pages web
En plus d'un bon placement de scripts dans la page, il est possible d'accélérer le chargement d'une page en gérant ses scripts de manière asynchrone.
(écrit le 23/05/2012 - 5.305 lectures)

Twitter et les raccourcis d'url
Septembre 2010 voit les nouveaux raccourcis d'url se mettre peu à peu en place avec la nouvelle version de twitter. Quels sont alors les impacts sur le développement des pages vis à vis de l'API Twitter.
(écrit le 22/09/2010 - 4.484 lectures)

Interdire le clic droit
Empêcher la copie d'images, mais cela seulement en évitant d'utiliser des instructions restrictives.
(écrit le 17/02/2010 - 16.405 lectures)

Script pour lecteur vidéo embarqué
Lorsque l'on intègre sur un site web les lignes de code proposées par les sites de plateforme vidéo, le code n'est pas valide selon la syntaxe du W3C. voici donc un code correct.
(écrit le 04/04/2009 - 5.630 lectures)

Personnaliser ses cartes Google Maps : les icones
Les icônes google maps sont personnalisables, pour des cartes intégrées dans un site web et qui communiquent ainsi d'avantage. Ce code source est utilisable.
(écrit le 20/03/2008 - 11.565 lectures)

CMS Gestion de contenu
La gestion de contenu, ou la Publication Assistée par Internet avec un CMS (Système de gestion de contenu)
(écrit le 15/02/2004 - 7.852 lectures)

Pages statiques ou pages dynamiques
Sites web avec Pages statiques ou pages dynamiques, comment ne pas confondre les deux !
(écrit le 15/10/2003 - 7.291 lectures)

Optimiser son code source
Peu d'outils web permettent cette option de manière intrinsèque et pourtant il est possible voire conseillé d'optimiser son code source.
(écrit le 19/06/2003 - 7.136 lectures)



Tutoriels Webmaster

Référencement :

Comment Google Analytics et la Search console Google fonctionnent. Quelle est la différence entre ces outils ? Est ce qu'ils interagissent entre eux ?


Scripts :

Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.


Scripts :

Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la captures de telles pages, pour contrôler en un coup d'oeil le résultat.


Conception :

Optimiser un site web avec du responsive design est un pas de plus fait vers l'utilisateur final
Pour autant, si une page du site a un poids de plusieurs méga, l'utilisateur risque, si il est sur un téléphone mobile, de partir avant que la page ne soit complétement chargée.


Outils :

Comment gérer les erreurs 404 not found sur le fichier browserconfig.xml, alors que celui ci est demandé par le navigateur.


Scripts :

Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).


Scripts :

L'attribut Placeholder, permettant en HTML5 de renseigner le label d'un champs input, ne fonctionne pas sous Internet Explorer. Voici un script JavaScript simple et efficace à insérer pour contourner ce manque de fonctionnalité.


Sécurité :

Poster un spam sur un forum est pour certains acteurs du web un exercice amusant. Pour d'autres c'est un moment de réflexion obligatoire pour éviter de se faire spammer.
Voyons quelles sont les solutions pour éliminer les posts des spameurs tout en gardant ceux des internautes.


Pages webmaster
Actu Webmaster

Thèmes Phortail