Introductie tot XPATH

Webscraping in R

Timo Grossenbacher

Instructor

XML Path Language

Een pad door een HTML-boom, bijv. //div/p[@class = "blue"] (gelijk aan div > p.blue)
Selecteer knooppunten op basis van eigenschappen van andere knooppunten
Meer geavanceerde en aangepaste selecties mogelijk
Voorbeeld: selecteer elementen op basis van eigenschappen van hun kinderen, bijv. alleen div-elementen met a-knooppunten met klasse special

Een eenvoudige HTML-boom waarin alle p-elementen zijn geselecteerd

html %>%
    html_elements(xpath = '//p')
# CSS selector equivalent: p

html %>%
    html_elements(xpath = '//body//p')
# CSS selector equivalent: body p

html %>%
    html_elements(xpath = '/html/body//p')
# CSS selector equivalent: html > body p

Een eenvoudige HTML-boom waarin alleen p-elementen onder divs zijn geselecteerd

html %>%
    html_elements(xpath = '//div/p')
# CSS selector equivalent: div > p

Een eenvoudige HTML-boom waarin alleen div's met een kind a zijn geselecteerd

html %>%
    html_elements(xpath = '//div[a]')
# CSS selector equivalent: none

Webscraping in R