Pronti a fare crawling

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Rispondiamo

Selector vs Response:

L'oggetto Response ha tutti gli strumenti visti con i Selector:
- Metodi xpath e css, seguiti da extract e extract_first.
Response memorizza l'URL da cui è stato caricato l'HTML.
Response ci permette di passare da un sito all'altro, così possiamo fare "crawling" mentre facciamo scraping.

response.xpath( '//div/span[@class="bio"]' )

response.css( 'div > span.bio' )

response.xpath('//div').css('span.bio')

response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()

response.url
>>> 'http://www.DataCamp.com/courses/all'

# next_url è la stringa con il percorso del prossimo URL da scansionare
response.follow( next_url )

Web Scraping in Python