Introduzione a scrapy Selector

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Configurare un Selector

from scrapy import Selector

html = '''
<html>
  <body>
    <div class="hello datacamp">
      <p>Hello World!</p>
    </div>
    <p>Enjoy DataCamp!</p>
  </body>
</html>
'''

sel = Selector( text = html )

Creato un oggetto scrapy Selector usando una stringa con il codice HTML
Il selector sel ha selezionato l'intero documento HTML

Selezionare con i Selector

Possiamo usare xpath dentro un Selector per creare nuovi Selector di parti specifiche del codice HTML
Il risultato è un SelectorList di oggetti Selector

sel.xpath("//p")

# restituisce il SelectorList:
[<Selector xpath='//p' data='<p>Hello World!</p>'>, 
 <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]

Estrarre dati da un SelectorList

Usa il metodo extract()

>>> sel.xpath("//p")

out: [<Selector xpath='//p' data='<p>Hello World!</p>'>,
      <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]

>>> sel.xpath("//p").extract()

out: [ '<p>Hello World!</p>', 
       '<p>Enjoy DataCamp!</p>' ]

Puoi usare extract_first() per ottenere il primo elemento della lista

>>> sel.xpath("//p").extract_first()

out: '<p>Hello World!</p>'

Estrarre dati da un Selector

ps = sel.xpath('//p')

second_p = ps[1]

second_p.extract()

out: '<p>Enjoy DataCamp!</p>'

Seleziona questo corso!

Web Scraping in Python