Bersiap untuk Merayap

Web Scraping dengan Python

Thomas Laetsch

Data Scientist, NYU

Mari Gunakan Response

Selector vs Response:

  • Response memiliki semua alat yang kita pelajari dengan Selector:
    • Metode xpath dan css diikuti metode extract dan extract_first.
  • Response juga menyimpan jejak URL sumber HTML dimuat.
  • Response membantu kita berpindah antar situs, sehingga kita bisa "merayapi" web saat scraping.
Web Scraping dengan Python

Apa yang Kita Tahu!

  • Metode xpath bekerja seperti Selector
response.xpath( '//div/span[@class="bio"]' )
  • Metode css bekerja seperti Selector
response.css( 'div > span.bio' )
  • Chaining bekerja seperti Selector
response.xpath('//div').css('span.bio')
  • Ekstraksi data bekerja seperti Selector
response.xpath('//div').css('span.bio').extract()
response.xpath('//div').css('span.bio').extract_first()
Web Scraping dengan Python

Apa yang Belum Kita Tahu

  • response menyimpan URL pada variabel response.url.
response.url
>>> 'http://www.DataCamp.com/courses/all'
  • response memungkinkan kita "mengikuti" tautan baru dengan metode follow()
# next_url adalah path string dari url berikutnya yang ingin kita scrap
response.follow( next_url )
  • Kita akan mempelajari lebih lanjut tentang follow nanti.
Web Scraping dengan Python

Dalam Response

Web Scraping dengan Python

Preparing Video For Download...