VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > Python基础教程 >
  • Python3标准库:urllib.robotparser Internet蜘蛛访问控制

1. urllib.request网络资源访问

robotparser为robots.txt文件格式实现一个解析器,提供了一个函数来检查给定的用户代理是否可以访问一个资源。这个模块可以用于合法蜘蛛或者需要抑制或限制的其他爬虫应用中。

1.1 robots.txt

robots.txt文件格式是一个基于文本的简单访问控制系统,用于自动访问Web资源的计算机程序(如“蜘蛛”“爬虫”等)。这个文件由记录构成,各记录会指定程序的用户代理标识符,后面是该代理不能访问的一个URL(或URL前缀)列表。
以下代码清单显示了https://pymotw.com/的robots.txt文件。


  1. Sitemap: https://pymotw.com/sitemap.xml
  2. User-agent: *
  3. Disallow: /admin/
  4. Disallow: /downloads/
  5. Disallow: /media/
  6. Disallow: /static/
  7. Disallow: /codehosting/

这个文件会阻止访问网站中某些计算资源代价昂贵的部分,如果搜索引擎试图索引这些部分,那么可能会让服务器负载过重。要得到更完整的robots.txt示例集,可以参考Web Robots页面。

1.2 测试访问权限

基于之前提供的数据,一个简单的爬虫应用可以使用RobotFileParser.can_fetch()测试是否允许下载一个页面。


  1. from urllib import parse
  2. from urllib import robotparser
  3.  
  4. AGENT_NAME = 'PyMOTW'
  5. URL_BASE = 'https://pymotw.com/'
  6. parser = robotparser.RobotFileParser()
  7. parser.set_url(parse.urljoin(URL_BASE, 'robots.txt'))
  8. parser.read()
  9.  
  10. PATHS = [
  11. '/',
  12. '/PyMOTW/',
  13. '/admin/',
  14. '/downloads/PyMOTW-1.92.tar.gz',
  15. ]
  16.  
  17. for path in PATHS:
  18. print('{!r:>6} : {}'.format(
  19. parser.can_fetch(AGENT_NAME, path), path))
  20. url = parse.urljoin(URL_BASE, path)
  21. print('{!r:>6} : {}'.format(
  22. parser.can_fetch(AGENT_NAME, url), url))
  23. print()

can_fetch()的URL参数可以是一个相对于网站根目录的相对路径,也可以是一个完全URL。

1.3 长寿命蜘蛛

如果一个应用需要花很长时间来处理它下载的资源,或者受到抑制,需要在下载之间暂停,那么这样的应用应当以它已下载内容的寿命为根据,定期检查新的robots.txt文件。这个寿命并不是自动管理的,不过有一些简便方法可以方便地跟踪其寿命。


  1. from urllib import robotparser
  2. import time
  3.  
  4. AGENT_NAME = 'PyMOTW'
  5. parser = robotparser.RobotFileParser()
  6. # Using the local copy
  7. parser.set_url('file:robots.txt')
  8. parser.read()
  9. parser.modified()
  10.  
  11. PATHS = [
  12. '/',
  13. '/PyMOTW/',
  14. '/admin/',
  15. '/downloads/PyMOTW-1.92.tar.gz',
  16. ]
  17.  
  18. for path in PATHS:
  19. age = int(time.time() - parser.mtime())
  20. print('age:', age, end=' ')
  21. if age > 1:
  22. print('rereading robots.txt')
  23. parser.read()
  24. parser.modified()
  25. else:
  26. print()
  27. print('{!r:>6} : {}'.format(
  28. parser.can_fetch(AGENT_NAME, path), path))
  29. # Simulate a delay in processing
  30. time.sleep(1)
  31. print()

这个例子有些极端,如果已下载的文件寿命超过一秒,那么它就会下载一个新的robots.txt文件。

作为一个更好的长寿命应用,在下载整个文件之前可能会请求文件的修改时间。另一方面,robots.txt文件通常很小,所以在此获取整个文档的开销并不昂贵。 


相关教程