Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Mariage pour tal monde
13 novembre 2014

Exercices de la séance 5

Durant la séance 5, nous avons découvert deux nouvelles commandes: wget et curl.

cURL: Client URL Request Library soit « Bibliothèque de requêtes aux URL des clients » (voir définition sur Wikipédia).

Wget: combinaison des termes World Wide WebGET nom de la commande utilisée dans le protocole HTTP pour récupérer un fichier) (voir définition sur Wikipédia).

Ces commandes permettent d'aspirer les pages web, c'est-à-dire de récupérer le contenu d'une page web transférée à partir d'une URL, nous permettant de travailler sur ce contenu librement et sans dépendre d'une connexion internet

Dans notre cas, la commande curl ne fonctionnait pas, même en téléchargeant cette commande (sudo apt-get install curl)

Au lancement du script, il y a de l'animation dans le terminal: l'aspiration de la page depuis les URLs données s'affiche en temps réel. Ce qui est très galvanisant pour nous ("ça y est, nous avons réussi à communiquer avec la machine!") mais très rapidement, nous avons déchanté: en effet ce processus d'aspiration prend un temps considérable (plus de 25mn pour le traitement de 153 URLs (51ch, 51br, 51fr) ). Voici ce qui se passe sur l'écran du terminal lors de cette étape:

1

Petit essai pour 4 URLs portugais et 4 ULRs français:

2

Pages aspirées:

3

Capture d'écran des tableaux:

4

Publicité
Commentaires
Mariage pour tal monde
Publicité
Archives
Publicité