Préparer le crawl

Web Scraping en Python

Thomas Laetsch

Data Scientist, NYU

Répondons

Selector vs Response :

L’objet Response dispose des mêmes outils que Selector :
- Méthodes xpath et css, puis extract et extract_first.
L’objet Response conserve l’URL d’origine du code HTML.
L’objet Response permet de passer de page en page pour « crawler » le web en scrappant.

response.xpath( '//div/span[@class="bio"]' )

response.css( 'div > span.bio' )

response.xpath('//div').css('span.bio')

response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()

response.url
>>> 'http://www.DataCamp.com/courses/all'

# next_url est la chaîne de l’URL suivante à scraper
response.follow( next_url )

Web Scraping en Python