Bereit zum Crawlen

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Lass uns reagieren

Selector vs. Response:

  • Die Response hat alle Selector-Tools:
    • xpath- und css-Methoden, gefolgt von extract und extract_first.
  • Die Response merkt sich die URL, von der das HTML geladen wurde.
  • Die Response hilft beim Wechseln zwischen Seiten, damit wir beim Scrapen das Web „crawlen“.
Web Scraping in Python

Was wir wissen!

  • xpath funktioniert wie ein Selector
response.xpath( '//div/span[@class="bio"]' )
  • css funktioniert wie ein Selector
response.css( 'div > span.bio' )
  • Chaining funktioniert wie beim Selector
response.xpath('//div').css('span.bio')
  • Datenextraktion funktioniert wie beim Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Web Scraping in Python

Was wir nicht wissen

  • response speichert die URL in response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • Mit response können wir mit follow() einem Link „folgen“
# next_url ist der String-Pfad der nächsten zu scrapenden URL
response.follow( next_url )
  • Mehr zu follow später.
Web Scraping in Python

In Response

Web Scraping in Python

Preparing Video For Download...