如何刪除lxml中的元素

Question

我需要使用 python 的 lxml 根據屬性的內容完全刪除元素。 例子：

import lxml.etree as et

xml="""
<groceries>
  <fruit state="rotten">apple</fruit>
  <fruit state="fresh">pear</fruit>
  <fruit state="fresh">starfruit</fruit>
  <fruit state="rotten">mango</fruit>
  <fruit state="fresh">peach</fruit>
</groceries>
"""

tree=et.fromstring(xml)

for bad in tree.xpath("//fruit[@state=\'rotten\']"):
  #remove this element from the tree

print et.tostring(tree, pretty_print=True)

我想打印：

<groceries>
  <fruit state="fresh">pear</fruit>
  <fruit state="fresh">starfruit</fruit>
  <fruit state="fresh">peach</fruit>
</groceries>

有沒有辦法在不存儲臨時變量並手動打印的情況下做到這一點，如：

newxml="<groceries>\n"
for elt in tree.xpath('//fruit[@state=\'fresh\']'):
  newxml+=et.tostring(elt)

newxml+="</groceries>"

Answer 1

使用 xmlElement 的remove方法：

tree=et.fromstring(xml)

for bad in tree.xpath("//fruit[@state=\'rotten\']"):
  bad.getparent().remove(bad)     # here I grab the parent of the element to call the remove directly on it

print et.tostring(tree, pretty_print=True, xml_declaration=True)

如果我必須與@Acorn 版本進行比較，即使要刪除的元素不直接位於 xml 的根節點下，我的版本也能正常工作。

Answer 2

您正在尋找remove功能。 調用樹的 remove 方法並將其傳遞給要刪除的子元素。

import lxml.etree as et

xml="""
<groceries>
  <fruit state="rotten">apple</fruit>
  <fruit state="fresh">pear</fruit>
  <punnet>
    <fruit state="rotten">strawberry</fruit>
    <fruit state="fresh">blueberry</fruit>
  </punnet>
  <fruit state="fresh">starfruit</fruit>
  <fruit state="rotten">mango</fruit>
  <fruit state="fresh">peach</fruit>
</groceries>
"""

tree=et.fromstring(xml)

for bad in tree.xpath("//fruit[@state='rotten']"):
    bad.getparent().remove(bad)

print et.tostring(tree, pretty_print=True)

結果：

<groceries>
  <fruit state="fresh">pear</fruit>
  <fruit state="fresh">starfruit</fruit>
  <fruit state="fresh">peach</fruit>
</groceries>

Answer 3

我遇到過一種情況：

<div>
    <script>
        some code
    </script>
    text here
</div>

div.remove(script)將刪除text here的text here部分，我不是故意的。

按照這里的答案，我發現etree.strip_elements對我來說是一個更好的解決方案，您可以控制是否使用with_tail=(bool)參數刪除后面的文本。

但我仍然不知道這是否可以使用 xpath 過濾器進行標記。 只是把這個通知。

這是文檔：

strip_elements(tree_or_element, *tag_names, with_tail=True)

從樹或子樹中刪除具有提供的標簽名稱的所有元素。 這將刪除元素及其整個子樹，包括它們的所有屬性、文本內容和后代。 它還將刪除元素的尾部文本，除非您將with_tail關鍵字參數選項顯式設置為 False。

標記名稱可以包含通配符，如_Element.iter 。

請注意，即使匹配，這也不會刪除您傳遞的元素（或 ElementTree 根元素）。 它只會對待它的后代。 如果要包含根元素，請在調用此函數之前直接檢查其標記名稱。

示例用法::
 strip_elements(some_element, 'simpletagname', # non-namespaced tag '{http://some/ns}tagname', # namespaced tag '{http://some/other/ns}*' # any tag from a namespace lxml.etree.Comment # comments )

Answer 4

如前所述，您可以使用remove()方法從樹中刪除（子）元素：

for bad in tree.xpath("//fruit[@state=\'rotten\']"):
  bad.getparent().remove(bad)

但是它會刪除元素，包括它的tail ，如果您正在處理混合內容文檔（如 HTML），這是一個問題：

<div><fruit state="rotten">avocado</fruit> Hello!</div>

成為

<div></div>

這是我想你並不總是想要的 :) 我創建了輔助函數來只刪除元素並保留它的尾巴：

def remove_element(el):
    parent = el.getparent()
    if el.tail.strip():
        prev = el.getprevious()
        if prev:
            prev.tail = (prev.tail or '') + el.tail
        else:
            parent.text = (parent.text or '') + el.tail
    parent.remove(el)

for bad in tree.xpath("//fruit[@state=\'rotten\']"):
    remove_element(bad)

這樣它將保留尾部文本：

<div> Hello!</div>

Answer 5

您還可以使用 lxml 中的 html 來解決該問題：

from lxml import html

xml="""
<groceries>
  <fruit state="rotten">apple</fruit>
  <fruit state="fresh">pear</fruit>
  <fruit state="fresh">starfruit</fruit>
  <fruit state="rotten">mango</fruit>
  <fruit state="fresh">peach</fruit>
</groceries>
"""

tree = html.fromstring(xml)

print("//BEFORE")
print(html.tostring(tree, pretty_print=True).decode("utf-8"))

for i in tree.xpath("//fruit[@state='rotten']"):
    i.drop_tree()

print("//AFTER")
print(html.tostring(tree, pretty_print=True).decode("utf-8"))

它應該輸出這個：

//BEFORE
<groceries>
  <fruit state="rotten">apple</fruit>
  <fruit state="fresh">pear</fruit>
  <fruit state="fresh">starfruit</fruit>
  <fruit state="rotten">mango</fruit>
  <fruit state="fresh">peach</fruit>
</groceries>


//AFTER
<groceries>

  <fruit state="fresh">pear</fruit>
  <fruit state="fresh">starfruit</fruit>

  <fruit state="fresh">peach</fruit>
</groceries>

Answer 6

remove函數從樹中分離一個元素，因此刪除 XML 節點（元素、PI 或注釋）、其內容（后代項）和tail文本。 在這里，保留tail文本是多余的，因為它只包含空格和換行符，可以認為是可忽略的空格。

要刪除元素（及其內容），保留其tail ，您可以使用以下函數：

def remove_node(child, keep_content=False):
    """
    Remove an XML element, preserving its tail text.

    :param child: XML element to remove
    :param keep_content: ``True`` to keep child text and sub-elements.
    """
    parent = child.getparent()
    parent_text = parent.text or u""
    prev_node = child.getprevious()
    if keep_content:
        # insert: child text
        child_text = child.text or u""
        if prev_node is None:
            parent.text = u"{0}{1}".format(parent_text, child_text) or None
        else:
            prev_tail = prev_node.tail or u""
            prev_node.tail = u"{0}{1}".format(prev_tail, child_text) or None
        # insert: child elements
        index = parent.index(child)
        parent[index:index] = child[:]
    # insert: child tail
    parent_text = parent.text or u""
    prev_node = child.getprevious()
    child_tail = child.tail or u""
    if prev_node is None:
        parent.text = u"{0}{1}".format(parent_text, child_tail) or None
    else:
        prev_tail = prev_node.tail or u""
        prev_node.tail = u"{0}{1}".format(prev_tail, child_tail) or None
    # remove: child
    parent.remove(child)

這是一個演示：

from lxml import etree

tree = etree.XML(u"<root>text <bad>before <bad>inner</bad> after</bad> tail</root>")
bad1 = tree.xpath("//bad[1]")[0]
remove_node(bad1)

etree.dump(tree)
# <root>text  tail</root>

如果要保留內容，可以執行以下操作：

tree = etree.XML(u"<root>text <bad>before <bad>inner</bad> after</bad> tail</root>")
bad1 = tree.xpath("//bad[1]")[0]
remove_node(bad1, keep_content=True)

etree.dump(tree)
# <root>text before <bad>inner</bad> after tail</root>

如何刪除lxml中的元素

問題描述

6 個解決方案

解決方案1
168 已采納 2011-11-02 14:22:54

解決方案2
30 2011-11-02 14:22:55

解決方案3
14 2016-12-28 09:46:11

解決方案4
3 2018-12-01 16:33:22

解決方案5
1 2019-11-23 09:25:53

解決方案6
0 2021-03-17 09:21:53

如何刪除lxml中的元素

問題描述

6 個解決方案

解決方案1 168 已采納 2011-11-02 14:22:54

解決方案2 30 2011-11-02 14:22:55

解決方案3 14 2016-12-28 09:46:11

解決方案4 3 2018-12-01 16:33:22

解決方案5 1 2019-11-23 09:25:53

解決方案6 0 2021-03-17 09:21:53

解決方案1
168 已采納 2011-11-02 14:22:54

解決方案2
30 2011-11-02 14:22:55

解決方案3
14 2016-12-28 09:46:11

解決方案4
3 2018-12-01 16:33:22

解決方案5
1 2019-11-23 09:25:53

解決方案6
0 2021-03-17 09:21:53