Scrapy 获取xml中有命名空间的标签

2016-05-22, 星期日|

假设body有命名空间如下

<body xmlns="http://www.w3.org/1999/xhtml">

那么直接用response.xpath取body

response.selector.register_namespace('w', 'http://www.w3.org/1999/xhtml')
body = response.xpath('//w:body').extract()

上面的这个response.selector实际上是scrapy.selector.XmlXPathSelector，等同于

from scrapy.selector import XmlXPathSelector
x = XmlXPathSelector(response)
x.register_namespace('g', 'http://www.w3.org/1999/xhtml')
x.select('//g:body')

参考XmlXPathSelector

关于本文如您有任何想法和意见，欢迎与我们联系，邮箱地址zhi@uqugu.com。

Scrapy 获取xml中有命名空间的标签

关于

关注 / 分享

软件