Script de lecture de pages web et d'aide à la décision

Navigation: Pages Webmaster > Scripts


Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.


Si tous les particuliers avaient une formation de base sur les langages serveurs tels que python, ils joueraient avec les cours de bourses, se passant de prestations de courtiers en devises.
L'exemple est trivial à dessein, mais pourtant vrai

Et pour un webmaster :
Avoir l'information que le site web qu'il a inscrit dans son annuaire web est finalement fermé.
Avoir l'information que l'information qu'il attend de tel site web est finalement en ligne.
Avoir la possibilité de surveiller son propre contenu web sans naviguer au sein des 10.000 pages web dont il a la charge.

La puissance d'un simple script python.
Python est en langage serveur, intéressant pour un webmaster en ce sens qu'il est facilement abordable avec une courbe d’apprentissage rapide.
Les possibilités d'utilisation sont nombreuses, pour peu qu'on trouve le besoin.

l'algorithme en pseudo langage est simple
lire la page web
vérifier si telle information est présente
action si la vérification es vraie

exemple :
ouvrir l'url d'un site inscrit dans l'annuaire
si l'ouverture s'est bien passée : ok
si l'ouverture n'a pas pu se faire : le site est fermé

Exemple de script


import urllib2
fh = open("webannuaire.txt", "r")
fl =fh.readlines()
e=open("weblisteerreur.txt", "w+")

for x in fl:
try:
response = urllib2.urlopen(x)
page_source = response.read()
if "xxxxx" in page_source:
print "xxxxx for "+str(x)
f.write(x)
except:
print "Failed "+str(x)
e.write(x)
f.close
e.close


Ici le fichier webannuaire.txt contient la liste des sites web à visiter.
On comprendra que le site ouvert ne se fait pas via un navigateur, seul le contenu html est chargé dans la variable page_source.
Le contenu de la variable peut ensuite être interrogé.
Le script peut être modifié pour vérifier un contenu précis.



Article écrit par Janol le 12/10/2016
(Hits 577
- Catégorie : Scripts)

Faites passer - Imprimer
Partagez cette page :



Commentaires

Cet article n'a pas encore été commenté.
Vous pouvez vous exprimer en remplissant le formulaire ci-dessous.


Autres publications Scripts

Script de contrôle de page web selon la résolution, le navigateur
(Ecrit le 14/09/2016 - 594 lectures)
Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la captures de telles pages, pour contrôler en un coup d'oeil le résultat.

Site web adapté à la taille de l'écran
(Ecrit le 06/03/2014 - 3.693 lectures)
Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).

Placeholder sous IE
(Ecrit le 24/01/2014 - 2.973 lectures)
L'attribut Placeholder, permettant en HTML5 de renseigner le label d'un champs input, ne fonctionne pas sous Internet Explorer. Voici un script JavaScript simple et efficace à insérer pour contourner ce manque de fonctionnalité.

Rendre ses scripts asynchrones pour optimiser le chargement de pages web
(Ecrit le 23/05/2012 - 4.668 lectures)
En plus d'un bon placement de scripts dans la page, il est possible d'accélérer le chargement d'une page en gérant ses scripts de manière asynchrone.

Twitter et les raccourcis d'url
(Ecrit le 22/09/2010 - 4.103 lectures)
Septembre 2010 voit les nouveaux raccourcis d'url se mettre peu à peu en place avec la nouvelle version de twitter. Quels sont alors les impacts sur le développement des pages vis à vis de l'API Twitter.

Interdire le clic droit
(Ecrit le 17/02/2010 - 15.966 lectures)
Empêcher la copie d'images, mais cela seulement en évitant d'utiliser des instructions restrictives.

Script pour lecteur vidéo embarqué
(Ecrit le 04/04/2009 - 5.230 lectures)
Lorsque l'on intègre sur un site web les lignes de code proposées par les sites de plateforme vidéo, le code n'est pas valide selon la syntaxe du W3C. voici donc un code correct.

Personnaliser ses cartes Google Maps : les icones
(Ecrit le 20/03/2008 - 11.057 lectures)
Les icônes google maps sont personnalisables, pour des cartes intégrées dans un site web et qui communiquent ainsi d'avantage. Ce code source est utilisable.

CMS Gestion de contenu
(Ecrit le 15/02/2004 - 7.510 lectures)
La gestion de contenu, ou la Publication Assistée par Internet avec un CMS (Système de gestion de contenu)

Pages statiques ou pages dynamiques
(Ecrit le 15/10/2003 - 6.951 lectures)
Sites web avec Pages statiques ou pages dynamiques, comment ne pas confondre les deux !

Optimiser son code source
(Ecrit le 19/06/2003 - 6.797 lectures)
Peu d'outils web permettent cette option de manière intrinsèque et pourtant il est possible voire conseillé d'optimiser son code source.



Tutoriels Webmaster

Scripts :

Internet a deux caractéristiques principales : Cela bouge beaucoup et cela bouge vite. Le webmaster se doit d'être actif, voire réactif, et de disposer de l'information rapidement. Un simple script en python peut l'aider.


Scripts :

Comment contrôler visuellement que l'affichage de différentes pages web se fait correctement avec les différentes configurations de navigateur, et résolution d'affichage. Le Webdriver de Sélénium permet via un script d'automatiser la captures de telles pages, pour contrôler en un coup d'oeil le résultat.


Conception :

Optimiser un site web avec du responsive design est un pas de plus fait vers l'utilisateur final
Pour autant, si une page du site a un poids de plusieurs méga, l'utilisateur risque, si il est sur un téléphone mobile, de partir avant que la page ne soit complétement chargée.


Outils :

Comment gérer les erreurs 404 not found sur le fichier browserconfig.xml, alors que celui ci est demandé par le navigateur.


Scripts :

Les feuilles de style d'un site web permettent d'adapter l'affichage à la taille de l'écran. Voyons comment faire pour un site qui s'affiche aussi bien sur un ordinateur, une tablette qu'un téléphone intelligent (smartphone).


Scripts :

L'attribut Placeholder, permettant en HTML5 de renseigner le label d'un champs input, ne fonctionne pas sous Internet Explorer. Voici un script JavaScript simple et efficace à insérer pour contourner ce manque de fonctionnalité.


Sécurité :

Poster un spam sur un forum est pour certains acteurs du web un exercice amusant. Pour d'autres c'est un moment de réflexion obligatoire pour éviter de se faire spammer.
Voyons quelles sont les solutions pour éliminer les posts des spameurs tout en gardant ceux des internautes.


Qualité :

Si il est préférable de faire un tweet lisible, voyons comment faire pour le générer de manière automatique à partir d'un article.


Pages webmaster Ajoutez à votre page Google

Projet Web NTIC


Annuaire


Thèmes Phortail