Préparer le crawl

Web Scraping en Python

Thomas Laetsch

Data Scientist, NYU

Répondons

Selector vs Response :

  • L’objet Response dispose des mêmes outils que Selector :
    • Méthodes xpath et css, puis extract et extract_first.
  • L’objet Response conserve l’URL d’origine du code HTML.
  • L’objet Response permet de passer de page en page pour « crawler » le web en scrappant.
Web Scraping en Python

Ce que nous savons

  • La méthode xpath fonctionne comme un Selector
response.xpath( '//div/span[@class="bio"]' )
  • La méthode css fonctionne comme un Selector
response.css( 'div > span.bio' )
  • L’enchaînement fonctionne comme un Selector
response.xpath('//div').css('span.bio')
  • L’extraction fonctionne comme un Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Web Scraping en Python

Ce que nous ignorons

  • response stocke l’URL dans la variable response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • response permet de « suivre » un nouveau lien via follow()
# next_url est la chaîne de l’URL suivante à scraper
response.follow( next_url )
  • Nous verrons follow plus en détail ensuite.
Web Scraping en Python

En réponse

Web Scraping en Python

Preparing Video For Download...