Navegação com XPath

Raspagem da Web em Python

Thomas Laetsch

Data Scientist, NYU

Barras e colchetes

  • Uma barra / avança uma geração
  • Duas barras // avançam por todas as gerações seguintes
  • Colchetes [] refinam para elementos específicos
Raspagem da Web em Python

Com ou sem colchetes?

Seleção de body com XPath

xpath = '/html/body'
xpath = '/html[1]/body[1]'
  • Dão a mesma seleção
Raspagem da Web em Python

Um body de p

xpath = '/html/body/p'

p dentro de body

Raspagem da Web em Python

Os pássaros e os p’s

xpath = '/html/body/div/p'

p dentro de div

xpath = '/html/body/div/p[2]'

Segundo p dentro de div

Raspagem da Web em Python

Barra dupla com colchetes

xpath = '//p'

Seleção de p com XPath

xpath = '//p[1]'

Primeiro p no body selecionado

Raspagem da Web em Python

O curinga

xpath = '/html/body/*'

Todos os filhos de body

  • O asterisco * é o “curinga”
Raspagem da Web em Python

Xposé

Raspagem da Web em Python

Preparing Video For Download...