Platte bestanden van het web importeren

Gevorderd data importeren in Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Je kunt al goed importeren!

  • Platte bestanden zoals .txt en .csv

  • Pickle-bestanden, Excel-sheets en meer!

  • Data uit relationele databases

  • Dit kan allemaal lokaal

  • Maar wat als je data online staat?

Gevorderd data importeren in Python

Kun je webdata importeren?

ch_1_1.010.png

  • Je kunt: naar een URL gaan en klikken om te downloaden
  • MAAR: niet reproduceerbaar, niet schaalbaar
Gevorderd data importeren in Python

Je leert om…

  • Datasets van het web importeren en lokaal opslaan

  • Datasets laden in pandas DataFrames

  • HTTP-verzoeken doen (GET)

  • Webdata scrapen, zoals HTML

  • HTML parsen naar bruikbare data (BeautifulSoup)

  • De pakketten urllib en requests gebruiken

Gevorderd data importeren in Python

Het pakket urllib

  • Biedt een interface om data van het web te halen
  • urlopen() - accepteert URL's i.p.v. bestandsnamen
Gevorderd data importeren in Python

Bestanden automatisch downloaden in Python

from urllib.request import urlretrieve
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
winequality-white.csv'
urlretrieve(url, 'winequality-white.csv')
('winequality-white.csv', <http.client.HTTPMessage at 0x103cf1128>)
Gevorderd data importeren in Python

Laten we oefenen!

Gevorderd data importeren in Python

Preparing Video For Download...