Introductie tot HTML

Webscraping in R

Timo Grossenbacher

Instructor

Als je het ziet, kun je het scrapen

geen download

Webscraping in R

HyperText Markup Language (HTML)

<html> 
  <body> 
    <h2>Een eerste voorbeeld</h2>
    <p>Een alinea tekst.</p>
    <p>
      Hier volgt een lijst:
    </p>
  </body> 
</html>

HTML-intro

Webscraping in R

HTML is hiërarchisch opgebouwd

HTML-intro

...
    <div>
      Hier volgt een lijst:
      <ul>
        <li>Punt 1</li>
        <li>Punt 2</li>
        <li>Punt 3</li>
      </ul>
    </div>
...
Webscraping in R

HTML-tags kunnen attributen hebben

HTML-intro

...
    <p>
      Hier staat een 
      <a href="https://google.com">link</a>.
    </p>
...
Webscraping in R

HTML lezen met R

library(rvest)
html <- read_html(html_document)
html
{html_document}
<html>
[1] <body> \n    <h2>Een eerste voorbeeld</h2>\n    <p>Een alinea tekst.</p>\n   ...
class(html)
"xml_document" "xml_node"
Webscraping in R
library(xml2)
xml_structure(html)
<html>
  <body>
    {text}
    <h2>
      {text}
    {text}
    <p>
      {text}
    {text}
    <p>
      {text}
      <a [href]>
        {text}
      {text}
    {text}
Webscraping in R

Laten we HTML parsen!

Webscraping in R

Preparing Video For Download...