Requisições HTTP para importar arquivos da web

Importação Intermediária de Dados em Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

URL

  • Localizador Uniforme de Recursos
  • Referências a recursos da web
  • Foco: endereços web
  • Componentes:
    • Identificador de protocolo - http:
    • Nome do recurso - datacamp.com
  • Especificam endereços web de forma única
Importação Intermediária de Dados em Python

HTTP

  • Protocolo de Transferência de Hipertexto
  • Base da comunicação de dados na web
  • HTTPS - forma mais segura do HTTP
  • Acessar um site = enviar requisição HTTP
    • Requisição GET
  • urlretrieve() faz uma requisição GET
  • HTML - Linguagem de Marcação de Hipertexto
Importação Intermediária de Dados em Python

Requisições GET com urllib

from urllib.request import urlopen, Request
url = "https://www.wikipedia.org/"
request = Request(url)
response = urlopen(request)
html = response.read()
response.close()
Importação Intermediária de Dados em Python

Requisições GET com requests

ch_1_2.026.png

  • Usado por “Governo de Sua Majestade, Amazon, Google, Twilio, NPR, Obama for America, Twitter, Sony e Instituições Federais dos EUA que preferem não ser nomeadas”
Importação Intermediária de Dados em Python

Requisições GET com requests

  • Um dos pacotes Python mais baixados
import requests
url = "https://www.wikipedia.org/"
r = requests.get(url)
text = r.text
Importação Intermediária de Dados em Python

Vamos praticar!

Importação Intermediária de Dados em Python

Preparing Video For Download...