Selettori CSS

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Pietra di Rosetta CSS

Sostituisci / con > (tranne il primo carattere)
- XPath: /html/body/div
- Selettore CSS: html > body > div
// sostituito da uno spazio (tranne il primo carattere)
- XPath: //div/span//p
- Selettore CSS: div > span p
[N] sostituito da :nth-of-type(N)
- XPath: //div/p[2]
- Selettore CSS: div > p:nth-of-type(2)

Pietra di Rosetta CSS

XPATH

xpath = '/html/body//div/p[2]'

CSS

css = 'html > body div > p:nth-of-type(2)'

Attributi in CSS

Per trovare un elemento per classe, usa il punto .
- Esempio: p.class-1 seleziona tutti i paragrafi con class-1

Per trovare un elemento per id, usa il cancelletto #
- Esempio: div#uid seleziona il div con id uguale a uid

Attributi in CSS

Seleziona i paragrafi nella classe class1:

css_locator = 'div#uid > p.class1'

Seleziona tutti gli elementi la cui classe è class1:

css_locator = '.class1'

Stato della classe

css = '.class1'

Stato della classe

xpath = '//*[@class="class1"]'

Stato della classe

xpath = '//*[contains(@class,"class1")]'

Selettori con CSS

from scrapy import Selector 

html = '''
<html>
  <body>
    <div class="hello datacamp">
      <p>Hello World!</p>
    </div>
    <p>Enjoy DataCamp!</p>
  </body>
</html>
''' 
sel = Selector( text = html )

>>> sel.css("div > p")
out: [<Selector xpath='...' data='<p>Hello World!</p>'>] 

>>> sel.css("div > p").extract()
out: [ '<p>Hello World!</p>' ]

A (CSS) presto!

Web Scraping in Python