Introducción al Selector de scrapy

Web scraping en Python

Thomas Laetsch

Data Scientist, NYU

Configurar un Selector

from scrapy import Selector

html = '''
<html>
  <body>
    <div class="hello datacamp">
      <p>Hello World!</p>
    </div>
    <p>Enjoy DataCamp!</p>
  </body>
</html>
'''

sel = Selector( text = html )

Creamos un objeto Selector de scrapy a partir de una cadena con el código html
El selector sel ha seleccionado todo el documento html

Seleccionar Selectors

Podemos usar xpath dentro de un Selector para crear nuevos Selector de partes específicas del código html
Devuelve un SelectorList de objetos Selector

sel.xpath("//p")

# outputs the SelectorList:
[<Selector xpath='//p' data='<p>Hello World!</p>'>, 
 <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]

Extraer datos de un SelectorList

Usa el método extract()

>>> sel.xpath("//p")

out: [<Selector xpath='//p' data='<p>Hello World!</p>'>,
      <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]

>>> sel.xpath("//p").extract()

out: [ '<p>Hello World!</p>', 
       '<p>Enjoy DataCamp!</p>' ]

Podemos usar extract_first() para obtener el primer elemento de la lista

>>> sel.xpath("//p").extract_first()

out: '<p>Hello World!</p>'

Extraer datos de un Selector

ps = sel.xpath('//p')

second_p = ps[1]

second_p.extract()

out: '<p>Enjoy DataCamp!</p>'

¡Elige este curso!

Web scraping en Python