Python，从包含某个单词的xml站点地图中提取url

Question

我正在尝试从 URL 中包含单词 foo 的站点地图中提取所有 URL。 我设法提取了所有网址，但不知道如何只获取我想要的网址。 所以在下面的例子中，我只想要返回苹果和梨的网址。

<url>
<loc>
https://www.example.com/p-1224-apples-foo-09897.php
</loc>
<lastmod>2018-05-29</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>
https://www.example.com/p-1433-pears-foo-00077.php
</loc>
<lastmod>2018-05-29</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>
https://www.example.com/p-3411-oranges-ping-66554.php
</loc>
<lastmod>2018-05-29</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>

Answer 1

我将 xml 修改为有效格式（添加<urls>和</urls> ），将它们保存到 src.xml 中：

<urls>
<url>
<loc>
https://www.example.com/p-1224-apples-foo-09897.php
</loc>
<lastmod>2018-05-29</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>
https://www.example.com/p-1433-pears-foo-00077.php
</loc>
<lastmod>2018-05-29</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>
https://www.example.com/p-3411-oranges-ping-66554.php
</loc>
<lastmod>2018-05-29</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urls>

使用xml.etree.ElementTree解析 xml：

>>> import xml.etree.ElementTree as ET
>>> tree = ET.parse('src.xml')
>>> root = tree.getroot()
>>> for url in root.findall('url'):
...     for loc in url.findall('loc'):
...             if loc.text.__contains__('foo'):
...                     print(loc.text)
...

https://www.example.com/p-1224-apples-foo-09897.php
https://www.example.com/p-1433-pears-foo-00077.php

Answer 2

假设它们总是在loc标记的元素中，那么您可以使用 XPath 方法

//loc[contains(text(),'foo')]

通用将是：

//*[contains(text(),'foo')]

它需要使用支持 XPath 的lxml ，请参见此处。

Answer 3

如果您拥有所有网址，那么您可以使用in检查每个网址中是否包含“foo”一词。 像这样的东西（假设您已经拥有名为urls的列表中的所有urls ）：

urls = [url for url in urls if 'foo' in url]

Answer 4

from xml.dom.minidom import parse
import xml.dom.minidom
xml_file = r'your_file.xml'
DOMTree = xml.dom.minidom.parse(xml_file)
root_node = DOMTree.documentElement
print(root_node.nodeName)
loc_nodes = root_node.getElementsByTagName("loc")
for loc in loc_nodes:
    print(loc.childNodes[0].data)

Python，从包含某个单词的xml站点地图中提取url

问题描述

4 个解决方案

解决方案1
2 已采纳 2018-09-30 12:52:57

解决方案2
1 2018-09-30 10:49:05

解决方案3
1 2018-09-30 13:25:20

解决方案4
0 2021-02-22 10:16:46

Python，从包含某个单词的xml站点地图中提取url

问题描述

4 个解决方案

解决方案1 2 已采纳 2018-09-30 12:52:57

解决方案2 1 2018-09-30 10:49:05

解决方案3 1 2018-09-30 13:25:20

解决方案4 0 2021-02-22 10:16:46

解决方案1
2 已采纳 2018-09-30 12:52:57

解决方案2
1 2018-09-30 10:49:05

解决方案3
1 2018-09-30 13:25:20

解决方案4
0 2021-02-22 10:16:46