[英]how to remove an element in lxml
我需要使用 python 的 lxml 根據屬性的內容完全刪除元素。 例子:
import lxml.etree as et
xml="""
<groceries>
<fruit state="rotten">apple</fruit>
<fruit state="fresh">pear</fruit>
<fruit state="fresh">starfruit</fruit>
<fruit state="rotten">mango</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
"""
tree=et.fromstring(xml)
for bad in tree.xpath("//fruit[@state=\'rotten\']"):
#remove this element from the tree
print et.tostring(tree, pretty_print=True)
我想打印:
<groceries>
<fruit state="fresh">pear</fruit>
<fruit state="fresh">starfruit</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
有沒有辦法在不存儲臨時變量並手動打印的情況下做到這一點,如:
newxml="<groceries>\n"
for elt in tree.xpath('//fruit[@state=\'fresh\']'):
newxml+=et.tostring(elt)
newxml+="</groceries>"
使用 xmlElement 的remove
方法:
tree=et.fromstring(xml)
for bad in tree.xpath("//fruit[@state=\'rotten\']"):
bad.getparent().remove(bad) # here I grab the parent of the element to call the remove directly on it
print et.tostring(tree, pretty_print=True, xml_declaration=True)
如果我必須與@Acorn 版本進行比較,即使要刪除的元素不直接位於 xml 的根節點下,我的版本也能正常工作。
您正在尋找remove
功能。 調用樹的 remove 方法並將其傳遞給要刪除的子元素。
import lxml.etree as et
xml="""
<groceries>
<fruit state="rotten">apple</fruit>
<fruit state="fresh">pear</fruit>
<punnet>
<fruit state="rotten">strawberry</fruit>
<fruit state="fresh">blueberry</fruit>
</punnet>
<fruit state="fresh">starfruit</fruit>
<fruit state="rotten">mango</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
"""
tree=et.fromstring(xml)
for bad in tree.xpath("//fruit[@state='rotten']"):
bad.getparent().remove(bad)
print et.tostring(tree, pretty_print=True)
結果:
<groceries>
<fruit state="fresh">pear</fruit>
<fruit state="fresh">starfruit</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
我遇到過一種情況:
<div>
<script>
some code
</script>
text here
</div>
div.remove(script)
將刪除text here
的text here
部分,我不是故意的。
按照這里的答案,我發現etree.strip_elements
對我來說是一個更好的解決方案,您可以控制是否使用with_tail=(bool)
參數刪除后面的文本。
但我仍然不知道這是否可以使用 xpath 過濾器進行標記。 只是把這個通知。
這是文檔:
strip_elements(tree_or_element, *tag_names, with_tail=True)
從樹或子樹中刪除具有提供的標簽名稱的所有元素。 這將刪除元素及其整個子樹,包括它們的所有屬性、文本內容和后代。 它還將刪除元素的尾部文本,除非您將
with_tail
關鍵字參數選項顯式設置為 False。標記名稱可以包含通配符,如
_Element.iter
。請注意,即使匹配,這也不會刪除您傳遞的元素(或 ElementTree 根元素)。 它只會對待它的后代。 如果要包含根元素,請在調用此函數之前直接檢查其標記名稱。
示例用法::
strip_elements(some_element, 'simpletagname', # non-namespaced tag '{http://some/ns}tagname', # namespaced tag '{http://some/other/ns}*' # any tag from a namespace lxml.etree.Comment # comments )
如前所述,您可以使用remove()
方法從樹中刪除(子)元素:
for bad in tree.xpath("//fruit[@state=\'rotten\']"):
bad.getparent().remove(bad)
但是它會刪除元素,包括它的tail
,如果您正在處理混合內容文檔(如 HTML),這是一個問題:
<div><fruit state="rotten">avocado</fruit> Hello!</div>
成為
<div></div>
這是我想你並不總是想要的 :) 我創建了輔助函數來只刪除元素並保留它的尾巴:
def remove_element(el):
parent = el.getparent()
if el.tail.strip():
prev = el.getprevious()
if prev:
prev.tail = (prev.tail or '') + el.tail
else:
parent.text = (parent.text or '') + el.tail
parent.remove(el)
for bad in tree.xpath("//fruit[@state=\'rotten\']"):
remove_element(bad)
這樣它將保留尾部文本:
<div> Hello!</div>
您還可以使用 lxml 中的 html 來解決該問題:
from lxml import html
xml="""
<groceries>
<fruit state="rotten">apple</fruit>
<fruit state="fresh">pear</fruit>
<fruit state="fresh">starfruit</fruit>
<fruit state="rotten">mango</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
"""
tree = html.fromstring(xml)
print("//BEFORE")
print(html.tostring(tree, pretty_print=True).decode("utf-8"))
for i in tree.xpath("//fruit[@state='rotten']"):
i.drop_tree()
print("//AFTER")
print(html.tostring(tree, pretty_print=True).decode("utf-8"))
它應該輸出這個:
//BEFORE
<groceries>
<fruit state="rotten">apple</fruit>
<fruit state="fresh">pear</fruit>
<fruit state="fresh">starfruit</fruit>
<fruit state="rotten">mango</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
//AFTER
<groceries>
<fruit state="fresh">pear</fruit>
<fruit state="fresh">starfruit</fruit>
<fruit state="fresh">peach</fruit>
</groceries>
remove
函數從樹中分離一個元素,因此刪除 XML 節點(元素、PI 或注釋)、其內容(后代項)和tail
文本。 在這里,保留tail
文本是多余的,因為它只包含空格和換行符,可以認為是可忽略的空格。
要刪除元素(及其內容),保留其tail
,您可以使用以下函數:
def remove_node(child, keep_content=False):
"""
Remove an XML element, preserving its tail text.
:param child: XML element to remove
:param keep_content: ``True`` to keep child text and sub-elements.
"""
parent = child.getparent()
parent_text = parent.text or u""
prev_node = child.getprevious()
if keep_content:
# insert: child text
child_text = child.text or u""
if prev_node is None:
parent.text = u"{0}{1}".format(parent_text, child_text) or None
else:
prev_tail = prev_node.tail or u""
prev_node.tail = u"{0}{1}".format(prev_tail, child_text) or None
# insert: child elements
index = parent.index(child)
parent[index:index] = child[:]
# insert: child tail
parent_text = parent.text or u""
prev_node = child.getprevious()
child_tail = child.tail or u""
if prev_node is None:
parent.text = u"{0}{1}".format(parent_text, child_tail) or None
else:
prev_tail = prev_node.tail or u""
prev_node.tail = u"{0}{1}".format(prev_tail, child_tail) or None
# remove: child
parent.remove(child)
這是一個演示:
from lxml import etree
tree = etree.XML(u"<root>text <bad>before <bad>inner</bad> after</bad> tail</root>")
bad1 = tree.xpath("//bad[1]")[0]
remove_node(bad1)
etree.dump(tree)
# <root>text tail</root>
如果要保留內容,可以執行以下操作:
tree = etree.XML(u"<root>text <bad>before <bad>inner</bad> after</bad> tail</root>")
bad1 = tree.xpath("//bad[1]")[0]
remove_node(bad1, keep_content=True)
etree.dump(tree)
# <root>text before <bad>inner</bad> after tail</root>
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.