Python ile Web Scraping
Thomas Laetsch
Data Scientist, NYU
from scrapy import Selector
html = '''
<html>
<body>
<div class="hello datacamp">
<p>Hello World!</p>
</div>
<p>Enjoy DataCamp!</p>
</body>
</html>
'''
sel = Selector( text = html )
HTML kodunu içeren bir dizeyle bir scrapy Selector nesnesi oluşturduk
sel seçicisi HTML belgesinin tamamını seçti
Selector içinde xpath çağrısını kullanarak HTML kodunun belirli kısımlarına ait yeni Selectorlar oluşturabiliriz
Dönen değer Selector nesnelerinden oluşan bir SelectorListtir
sel.xpath("//p")# şu SelectorList’i döndürür: [<Selector xpath='//p' data='<p>Hello World!</p>'>, <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]
extract() yöntemini kullanın>>> sel.xpath("//p")out: [<Selector xpath='//p' data='<p>Hello World!</p>'>, <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]
>>> sel.xpath("//p").extract()out: [ '<p>Hello World!</p>', '<p>Enjoy DataCamp!</p>' ]
extract_first() kullanabiliriz>>> sel.xpath("//p").extract_first()out: '<p>Hello World!</p>'
ps = sel.xpath('//p')second_p = ps[1]
second_p.extract()out: '<p>Enjoy DataCamp!</p>'
Python ile Web Scraping