Klaarmaken om te crawlen

Webscraping in Python

Thomas Laetsch

Data Scientist, NYU

Laten we reageren

Selector vs Response:

  • De Response heeft alle tools die we met Selectors leerden:
    • xpath- en css-methoden, gevolgd door extract en extract_first.
  • De Response houdt de URL bij waar de HTML vandaan komt.
  • De Response helpt je van site naar site te gaan, zodat je al scrapend kunt crawlen.
Webscraping in Python

Wat we weten!

  • xpath werkt zoals een Selector
response.xpath( '//div/span[@class="bio"]' )
  • css werkt zoals een Selector
response.css( 'div > span.bio' )
  • Chaining werkt zoals een Selector
response.xpath('//div').css('span.bio')
  • Data-extractie werkt zoals een Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Webscraping in Python

Wat we nog niet weten

  • response bewaart de URL in de variabele response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • response laat je een nieuwe link "volgen" met de methode follow()
# next_url is het stringpad van de volgende url die we willen scrapen
response.follow( next_url )
  • We leren later meer over follow.
Webscraping in Python

In Response

Webscraping in Python

Preparing Video For Download...