XPath-navigatie

Webscraping in Python

Thomas Laetsch

Data Scientist, NYU

Slashes en haken

  • Een enkele slash / kijkt één generatie vooruit
  • Een dubbele slash // kijkt alle volgende generaties vooruit
  • Vierkante haken [] verfijnen naar specifieke elementen
Webscraping in Python

Wel of geen haken

Geselecteerde body met /html/body

xpath = '/html/body'
xpath = '/html[1]/body[1]'
  • Geven dezelfde selectie
Webscraping in Python

Een body vol p's

xpath = '/html/body/p'

p-tags in body geselecteerd

Webscraping in Python

De vogels en de p's

xpath = '/html/body/div/p'

p-tags binnen div geselecteerd

xpath = '/html/body/div/p[2]'

Tweede p-tag binnen div geselecteerd

Webscraping in Python

Dubbele slash met haakjes

xpath = '//p'

Geselecteerde p-tags met //p

xpath = '//p[1]'

Eerste p-tag geselecteerd met //p[1]

Webscraping in Python

De wildcard

xpath = '/html/body/*'

Alle kinderen van body geselecteerd met *

  • De asterisk * is de wildcard
Webscraping in Python

Xposé

Webscraping in Python

Preparing Video For Download...