Preparando para rastrear

Raspagem da Web em Python

Thomas Laetsch

Data Scientist, NYU

Vamos responder

Selector vs Response:

  • O Response tem todas as ferramentas que vimos nos Selectors:
    • Métodos xpath e css, seguidos de extract e extract_first.
  • O Response também guarda a URL de onde o HTML foi carregado.
  • O Response ajuda a ir de um site a outro, para “rastrear” a web enquanto raspamos.
Raspagem da Web em Python

O que já sabemos!

  • O método xpath funciona como um Selector
response.xpath( '//div/span[@class="bio"]' )
  • O método css funciona como um Selector
response.css( 'div > span.bio' )
  • Encadeamento funciona como um Selector
response.xpath('//div').css('span.bio')
  • Extração de dados funciona como um Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Raspagem da Web em Python

O que não sabemos

  • O response guarda a URL em response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • O response permite “seguir” um novo link com o método follow()
# next_url é o caminho (string) da próxima URL que queremos raspar
response.follow( next_url )
  • Vamos ver mais sobre follow depois.
Raspagem da Web em Python

Em resposta

Raspagem da Web em Python

Preparing Video For Download...