Pronti a fare crawling

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Rispondiamo

Selector vs Response:

  • L'oggetto Response ha tutti gli strumenti visti con i Selector:
    • Metodi xpath e css, seguiti da extract e extract_first.
  • Response memorizza l'URL da cui è stato caricato l'HTML.
  • Response ci permette di passare da un sito all'altro, così possiamo fare "crawling" mentre facciamo scraping.
Web Scraping in Python

Cosa sappiamo!

  • Il metodo xpath funziona come un Selector
response.xpath( '//div/span[@class="bio"]' )
  • Il metodo css funziona come un Selector
response.css( 'div > span.bio' )
  • Il chaining funziona come un Selector
response.xpath('//div').css('span.bio')
  • L'estrazione dati funziona come un Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Web Scraping in Python

Cosa non sappiamo

  • response tiene traccia dell'URL in response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • response ci permette di "seguire" un nuovo link con il metodo follow()
# next_url è la stringa con il percorso del prossimo URL da scansionare
response.follow( next_url )
  • Impareremo altro su follow più avanti.
Web Scraping in Python

In Response

Web Scraping in Python

Preparing Video For Download...