Bereit zum Crawlen

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Lass uns reagieren

Selector vs. Response:

Die Response hat alle Selector-Tools:
- xpath- und css-Methoden, gefolgt von extract und extract_first.
Die Response merkt sich die URL, von der das HTML geladen wurde.
Die Response hilft beim Wechseln zwischen Seiten, damit wir beim Scrapen das Web „crawlen“.

response.xpath( '//div/span[@class="bio"]' )

response.css( 'div > span.bio' )

response.xpath('//div').css('span.bio')

response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()

response.url
>>> 'http://www.DataCamp.com/courses/all'

# next_url ist der String-Pfad der nächsten zu scrapenden URL
response.follow( next_url )

Web Scraping in Python