爬虫(十八)：Scrapy框架(五) Scrapy通用爬虫(2)

当前位置:

https://www.qidian.com/all\?orderId=\&style=1\&pageSize=20\&siteid=1\&pubflag=0\&hiddenField=0\&page=(\d+)')),follow=True),

#匹配详情页面不作深度爬取

Rule(LinkExtractor(allow=r'https://book.qidian.com/info/(\d+)'), callback='parse_item', follow=False),

)

接下来我们需要做的就是解析页面内容了，将书名、作者、状态、类型、简介、评分、故事、最新章节提取出来即可。首先定义一个Item。

然后我创建了很多方法，在分别获取这些信息。

def get_book_name(self,response):
book_name=response.xpath('//h1/em/text()').extract()[0]
if len(book_name)>0:
book_name=book_name.strip()
else:
book_name='NULL'
return book_name
def get_author(self,response):
author=response.xpath('//h1/span/a/text()').extract()[0]
if len(author)>0:
author=author.strip()
else:
author='NULL'
return author
def get_state(self,response):
state=response.xpath('//p[@class="tag"]/span/text()').extract()[0]
if len(state)>0:
state=state.strip()
else:
st='NULL'
return state
def get_type(self,response):
type=response.xpath('//p[@class="tag"]/a/text()').extract()
if len(type)>0:
t=""
for i in type:
t+=' '+i
type=t
else:
type='NULL'
return type
def get_about(self,response):
about=response.xpath('//p[@class="intro"]/text()').extract()[0]
if len(about)>0:
about=about.strip()
else:
about='NULL'
return about
def get_score(self,response):
def get_sc(id):
urll = 'https://book.qidian.com/ajax/comment/index?_csrfToken=ziKrBzt4NggZbkfyUMDwZvGH0X0wtrO5RdEGbI9w&bookId=' + id + '&pageSize=15'
rr = requests.get(urll)
# print(rr)
score = rr.text[16:19]
return score
bid=response.xpath('//a[@id="bookImg"]/@data-bid').extract()[0] #获取书的id
if len(bid)>0:
score=get_sc(bid) #调用方法获取评分若是整数可能返回 9，"
if score[1]==',':
score=score.

栏目列表