Importation de fichiers plats depuis le Web

Importation intermédiaire de données en Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Vous maîtrisez déjà parfaitement l'importation !

  • Fichiers plats tels que .txt et .csv

  • Fichiers Pickled, feuilles de calcul Excel et bien d'autres encore !

  • Données provenant de bases de données relationnelles

  • Vous pouvez effectuer toutes ces opérations localement

  • Et si vos données sont en ligne ?

Importation intermédiaire de données en Python

Est-il possible d'importer des données web ?

ch_1_1.010.png

  • Vous pouvez ouvrir l'URL et cliquer pour télécharger les fichiers
  • MAIS : non reproductible, non évolutif
Importation intermédiaire de données en Python

Vous apprendrez à…

  • Importer et enregistrer localement des ensembles de données provenant du Web

  • Charger les ensembles de données dans des DataFrames pandas

  • Effectuer des requêtes HTTP (requêtesGET)

  • Récupérer des données web telles que du HTML

  • Analyser le HTML en données utiles (BeautifulSoup)

  • Utiliser les packages urllib et requests

Importation intermédiaire de données en Python

Le package urllib

  • Fournit une interface pour récupérer des données sur le Web
  • urlopen() - accepte les URL à la place des noms de fichiers
Importation intermédiaire de données en Python

Comment automatiser le téléchargement de fichiers en Python

from urllib.request import urlretrieve
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
winequality-white.csv'
urlretrieve(url, 'winequality-white.csv')
('winequality-white.csv', <http.client.HTTPMessage at 0x103cf1128>)
Importation intermédiaire de données en Python

Passons à la pratique !

Importation intermédiaire de données en Python

Preparing Video For Download...