python爬虫框架scrapy实例详解(2)

当前位置:

首页 > Python基础教程 >

python爬虫框架scrapy实例详解(2)

HtmlXPathSelector使用了Xpath来解析数据

//ul/li表示选择所有的ul标签下的li标签

a/@href表示选择所有a标签的href属性

a/text()表示选择a标签文本

a[@href="abc"]表示选择所有href属性是abc的a标签

我们可以把解析出来的数据保存在一个scrapy可以使用的对象中，然后scrapy可以帮助我们把这些对象保存起来，而不用我们自己把这些数据存到文件中。我们需要在items.py中添加一些类，这些类用来描述我们要保存的数据

from scrapy.item import Item, Field

class DmozItem(Item):

title = Field()

link = Field()

desc = Field()

然后在spider的parse方法中，我们把解析出来的数据保存在DomzItem对象中。

from scrapy.spiderimport BaseSpider

from scrapy.selectorimport HtmlXPathSelector

from tutorial.itemsimport DmozItem

class DmozSpider(BaseSpider):

   name= "dmoz"

   allowed_domains= ["dmoz.org"]

   start_urls= [

       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

   ]

   def parse(self, response):

       hxs= HtmlXPathSelector(response)

       sites= hxs.select('//ul/li')

       items= []

       for sitein sites:

           item= DmozItem()

           item['title']= site.select('a/text()').extract()

           item['link']= site.select('a/@href').extract()

           item['desc']= site.select('text()').extract()

           items.append(item)

       return items

在命令行执行scrapy的时候，我们可以加两个参数，让scrapy把parse方法返回的items输出到json文件中

scrapy crawl dmoz -o items.json -t json

items.json会被放在项目的根目录

栏目列表