Pengantar XPATH

Web Scraping di R

Timo Grossenbacher

Instructor

XML Path Language

  • Jalur pada pohon HTML, mis. //div/p[@class = "blue"] (setara dengan div > p.blue)
  • Pilih node berdasarkan properti node lain
  • Seleksi lebih lanjut dan kustom dimungkinkan
  • Contoh: pilih elemen berdasar properti anaknya, mis. hanya div yang berisi node a dengan kelas special
Web Scraping di R

Pohon HTML sederhana dengan semua elemen p dipilih

html %>%
    html_elements(xpath = '//p')
# CSS selector equivalent: p
html %>%
    html_elements(xpath = '//body//p')
# CSS selector equivalent: body p
html %>%
    html_elements(xpath = '/html/body//p')
# CSS selector equivalent: html > body p
Web Scraping di R

Pohon HTML sederhana dengan hanya elemen p di bawah div yang dipilih

html %>%
    html_elements(xpath = '//div/p')
# CSS selector equivalent: div > p
Web Scraping di R

Pohon HTML sederhana dengan hanya div yang memiliki anak a dipilih

html %>%
    html_elements(xpath = '//div[a]')
# CSS selector equivalent: none
Web Scraping di R

Sintaks: sumbu, langkah, dan predikat

  • Sumbu: / atau //
  • Langkah: tipe HTML seperti span dan a
  • Predikat: [...]
  • Contoh: //span/a[@class = "external"] (CSS: span > a.external)
  • Contoh: //*[@id = "special"]//div (CSS: #special div atau *#special div)
Web Scraping di R

Ayo berlatih!

Web Scraping di R

Preparing Video For Download...