Question

我正在使用lxml的炉.阅读巨大的xml文档。对于某个主要要素,我检查儿童的内容,处理每个儿童。但是,我注意到,在检查一个要素内的儿童时,教区实际上有时还缺少一些儿童节点。我甚至印刷了每个要素的长度,每个要素的长度应为一定数量,但有时比应该少。令人惊讶的是,这种情况通常发生在第5区(一个区块;主要要素发生)。为什么教区会误导孩子们? 任何杂质?

Sample code-

from lxml import etree  
def parseXml(context,attribList,elemList,mainElement):      
   for event, element in context: 
       if element.tag == mainElement and event== start :
            for child in element:
               if child.tag in elemList:
                   print len(child) #for a given child,the len should be constant
                   #do things   
       elif event== end :
         element.clear()

感谢!

Answer 1

在界定背景时,确保确定参数<代码>events至(结尾,,而不是(起始,)。否则,你就可以得到你描述的行为。

context=etree.iterparse(filehandle, events=( end ,), tag=mainElement)

我认为,问题在于,在操作<代码>parseXml时, lxml正在一面处理XML,因此,在按相应的<代码>end要素进行分类之前,你可以达到<条码><><>>>>>。因此,当你通过这个要素照顾孩子时,你只能取得部分成果。

http://www.ibm.com/developerworks/xml/library/x-hiperfparse/“rel=“nofollow”>, 该条为组织这一活动提供了一种极好的方法,旨在处理大型XML:

def fast_iter(context, func, *args, **kwargs):
    # http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
    # Author: Liza Daly
    for event, elem in context:
        func(elem, *args, **kwargs)
        elem.clear()
        while elem.getprevious() is not None:
            del elem.getparent()[0]
    del context

def parseXml(element,attribList,elemList): 
    for child in element:
       if child.tag in elemList:
           print len(child) #for a given child,the len should be constant
           #do things   

context=etree.iterparse(filehandle, events=( end ,), tag=mainElement)   
fast_iter(context, parseXml, attribList, elemList)

友情链接