Scrapy 获取xml中有命名空间的标签

假设body有命名空间如下

<body xmlns="http://www.w3.org/1999/xhtml">

那么直接用response.xpath取body

response.selector.register_namespace('w', 'http://www.w3.org/1999/xhtml')
body = response.xpath('//w:body').extract()

上面的这个response.selector实际上是scrapy.selector.XmlXPathSelector,等同于

from scrapy.selector import XmlXPathSelector
x = XmlXPathSelector(response)
x.register_namespace('g', 'http://www.w3.org/1999/xhtml')
x.select('//g:body')

参考XmlXPathSelector

关于本文如您有任何想法和意见,欢迎与我们联系,邮箱地址zhi@uqugu.com
您对本文有什么看法,喜欢或者不喜欢都可以发表意见。