Web Scraping en Python
Thomas Laetsch
Data Scientist, NYU
Selector vs Response :
xpath et css, puis extract et extract_first.xpath fonctionne comme un Selectorresponse.xpath( '//div/span[@class="bio"]' )
css fonctionne comme un Selectorresponse.css( 'div > span.bio' )
response.xpath('//div').css('span.bio')
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
response stocke l’URL dans la variable response.url.response.url
>>> 'http://www.DataCamp.com/courses/all'
response permet de « suivre » un nouveau lien via follow()# next_url est la chaîne de l’URL suivante à scraper
response.follow( next_url )
follow plus en détail ensuite.Web Scraping en Python