python处理xml文件通常存在多种方式,这里分别以处理简单文件和大文件为例
处理一般文件
处理一般文件,通常使用ElementTree模块,python3.3之后会自动寻找可用的C库来加快速度
1 | try: |
查询xml
解析根节点**
1 | tree = ET.parse('111.xml') |
而获取root的原因在于方便后面解析使用, 通常情况,xml结构标识为<tag attrib1=1>text</tag>tail
1 | #source data:<country name="Liechtenstein"> |
当然,root也是可以迭代的
1 | for i in root: |
也可以是根据某一个标签进行迭代
1 | for i in root.findall('country'): #遍历所有符合条件子节点 |
修改xml
需要注意的是,xml中所有字符均为字符串类型,需要注意字符转换
1 | rank.text = str(new_rank) # 必须将int转为str |
修改之后的内容只是放在内存中,所以需要将内存里面的数据保存到磁盘中
值得注意的是,python为查询的接口提供了find和findall接口,分别表示查询第一个值就返回和返回所有查询到的值,这就不要注意find并不支持xpath路径查找,如果想要使用xpath查找要使用findall
1 | for i in root.findall('country[2]/year'): |
除此之外,还能对元素使用索引和切片,比如:
1 | i = root.findall('country') |
处理大型xml文件
当然,处理大型文档,除了使用固有的函数模块之外,还可以使用普通文档解析方式,这样只不过会导致取值更麻烦而已
其实只要一想到处理大型数据,就应该第一时间想到迭代器或者生成器
1 | from xml.etree.ElementTree import iterparse |
iterparse() 方法允许对XML文档进行增量操作。 使用时,你需要提供文件名和一个包含下面一种或多种类型的事件列表: start, end, start-ns 和 end-ns 。由 iterparse() 创建的迭代器会产生形如 (event, elem) 的元组, 其中 event 是上述事件列表中的某一个,而 elem 是相应的XML元素。
start 事件在某个元素第一次被创建并且还没有被插入其他数据(如子元素)时被创建。 而 end 事件在某个元素已经完成时被创建。
在 yield 之后的下面这个语句才是使得程序占用极少内存的ElementTree的核心特性:
1 | elem_stack[-2].remove(elem) |
这个语句使得之前由 yield 产生的元素从它的父节点中删除掉。 假设已经没有其它的地方引用这个元素了,那么这个元素就被销毁并回收内存。
对节点的迭代式解析和删除的最终效果就是一个在文档上高效的增量式清扫过程。 文档树结构从始自终没被完整的创建过。尽管如此,还是能通过上述简单的方式来处理这个XML数据。
将字典类型数据转换为xml
存在两种解决方案:
- 手动构造,以字符串的
format函数替代的方式来构造,不过这样显得有点蠢 - 使用
xml.etree.ElementTree模块中的Element函数
1 | from xml.etree.ElementTree import Element, tostringdef |
这样做的目的在于,可以通过查询数据库中的值放进字典中,利用字典生成xml文件