使用來自 xml.dom.minidom 的 getElementsByTagName

Question

我正在瀏覽 PyCon 2010 中 Asheesh Laroia 的“Scrape the Web”演示文稿，我對特定代碼行有疑問，即這一行：

title_element = parsed.getElementsByTagName('title')[0]

來自 function：

def main(filename):
    #Parse the file
    parsed = xml.dom.minidom.parse(open(filename))
    # Get title element
    title_element = parsed.getElementsByTagName('title')[0]
    # Print just the text underneath it
    print title_element.firstChild.wholeText

我不知道該行末尾的“[0]”扮演什么角色。 “xml.dom.minidom.parse”是否將輸入解析為列表？

Answer 1

parse()不返回列表； getElementsByTagName()可以。 您要求所有帶有<title>標簽的元素。 大多數標簽可以在文檔中出現多次，因此當您請求這些元素時，您會得到不止一個。 返回它們的明顯方法是作為列表或元組。

在這種情況下，您希望文檔中只有一個<title>標記，因此您只需獲取列表中的第一個元素。

Answer 2

此方法的 ( getElementsByTagName ) 文檔說：

搜索具有特定元素類型名稱的所有后代（直接子代、子代的子代等）。

既然它提到了“所有后代”，那么是的，很相似，它返回一個列表，該代碼只是索引以查看第一個元素。

查看此方法的代碼（在Lib/xml/dom/minidom.py中）——它確實返回了一個列表。

使用來自 xml.dom.minidom 的 getElementsByTagName

問題描述

2 個解決方案

解決方案1
4 已采納 2012-04-08 00:22:50

解決方案2
2 2012-04-08 00:20:07

使用來自 xml.dom.minidom 的 getElementsByTagName

問題描述

2 個解決方案

解決方案1 4 已采納 2012-04-08 00:22:50

解決方案2 2 2012-04-08 00:20:07

解決方案1
4 已采納 2012-04-08 00:22:50

解決方案2
2 2012-04-08 00:20:07