Preparados para rastrear

Web scraping en Python

Thomas Laetsch

Data Scientist, NYU

Vamos a responder

Selector vs Response:

  • El Response tiene todas las herramientas que vimos con Selectors:
    • Métodos xpath y css, seguidos de extract y extract_first.
  • El Response también guarda la URL de donde se cargó el HTML.
  • El Response nos ayuda a pasar de un sitio a otro, para poder "rastrear" la web al hacer scraping.
Web scraping en Python

Qué sabemos

  • El método xpath funciona como un Selector
response.xpath( '//div/span[@class="bio"]' )
  • El método css funciona como un Selector
response.css( 'div > span.bio' )
  • El encadenado funciona como un Selector
response.xpath('//div').css('span.bio')
  • La extracción de datos funciona como un Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Web scraping en Python

Qué no sabemos

  • response guarda la URL en la variable response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • response nos deja "seguir" un enlace con el método follow()
# next_url es la ruta (string) de la próxima URL que queremos scrapear
response.follow( next_url )
  • Veremos más de follow después.
Web scraping en Python

En respuesta

Web scraping en Python

Preparing Video For Download...