横向对比分析Python解析XML的4种方式

当前位置:

首页 > Python基础教程 >

横向对比分析Python解析XML的4种方式

在最初学习PYTHON的时候，只知道有DOM和SAX两种解析方法，但是其效率都不够理想，由于需要处理的文件数量太大，这两种方式耗时太高无法接受。

在网络搜索后发现，目前应用比较广泛，且效率相对较高的ElementTree也是一个比较多人推荐的算法，于是拿这个算法来实测对比，ElementTree也包括两种实现，一个是普通ElementTree（ET），一个是ElementTree.iterparse（ET_iter）。

本文将对DOM、SAX、ET、ET_iter四种方式进行横向对比，通过处理相同文件比较各个算法的用时来评估其效率。

程序中将四种解析方法均写为函数，在主程序中分别调用，来评估其解析效率。

解压后的XML文件内容示例为：

主程序函数调用部分代码为：

1

2

3

4

5

6

7

  print("文件计数：%d/%d." % (gz_cnt,paser_num))

  str_s,cnt = dom_parser(gz)

  #str_s,cnt = sax_parser(gz)

  #str_s,cnt = ET_parser(gz)

  #str_s,cnt = ET_parser_iter(gz)

  output.write(str_s)

  vs_cnt += cnt

在最初的函数调用中函数返回两个值，但接收函数调用值时用两个变量分别调用，导致每个函数都要执行两次，之后修改为一次调用两个变量接收返回值，减少了无效调用。

1、DOM解析

函数定义代码：

def dom_parser(gz):

  import gzip,cStringIO

  import xml.dom.minidom

  vs_cnt = 0

  str_s = ''

  file_io = cStringIO.StringIO()

  xm = gzip.open(gz,'rb')

  print("已读入：%s.\n解析中：" % (os.path.abspath(gz)))

  doc = xml.dom.minidom.parseString(xm.read())

  bulkPmMrDataFile = doc.documentElement

  #读入子元素

  enbs = bulkPmMrDataFile.getElementsByTagName("eNB")

  measurements = enbs[0].getElementsByTagName("measurement")

  objects = measurements[0].getElementsByTagName("object")

  #写入csv文件

  for object in objects:

    vs = object.getElementsByTagName("v")

    vs_cnt += len(vs)

    for v in vs:

      file_io.write(enbs[0].getAttribute("id")+' '+object.getAttribute("id")+' '+\

      object.getAttribute("MmeUeS1apId")+' '+object.getAttribute("MmeGroupId")+' '+object.getAttribute("MmeCode")+' '+\

      object.getAttribute("TimeStamp")+' '+v.childNodes[0].data+'\n') #获取文本值

  str_s = (((file_io.getvalue().replace(' \n','\r\n')).replace(' ',',')).replace('T',' ')).replace('NIL','')

  xm.close()

  file_io.close()

  return (str_s,vs_cnt)

栏目列表