Pengantar HTML

Web Scraping di R

Timo Grossenbacher

Instructor

Jika terlihat, maka bisa di-scrape

tanpa unduh

Web Scraping di R

Hypertext Markup Language (HTML)

<html> 
  <body> 
    <h2>Contoh pertama</h2>
    <p>Sebuah paragraf teks.</p>
    <p>
      Berikut daftar:
    </p>
  </body> 
</html>

Pengantar HTML

Web Scraping di R

HTML tersusun hierarkis

Pengantar HTML

...
    <div>
      Berikut daftar:
      <ul>
        <li>Butir 1</li>
        <li>Butir 2</li>
        <li>Butir 3</li>
      </ul>
    </div>
...
Web Scraping di R

Tag HTML dapat memiliki atribut

Pengantar HTML

...
    <p>
      Berikut adalah sebuah 
      <a href="https://google.com">tautan</a>.
    </p>
...
Web Scraping di R

Membaca HTML dengan R

library(rvest)
html <- read_html(html_document)
html
{html_document}
<html>
[1] <body> \n    <h2>Contoh pertama</h2>\n    <p>Sebuah paragraf teks.</p>\n   ...
class(html)
"xml_document" "xml_node"
Web Scraping di R
library(xml2)
xml_structure(html)
<html>
  <body>
    {text}
    <h2>
      {text}
    {text}
    <p>
      {text}
    {text}
    <p>
      {text}
      <a [href]>
        {text}
      {text}
    {text}
Web Scraping di R

Ayo mengurai HTML!

Web Scraping di R

Preparing Video For Download...