[英]lxml etree cleanup_namespaces returns None instead of cleaned tree
我寫了一個小的 class 用於抓取包含文件夾內一些文檔的網頁,所有這些都托管在 S3 上。 我將響應轉換為 XML 樹,我需要從前綴 URL 中清除每個元素。
這是代碼和問題:
import requests
from lxml import etree
class scraper():
def __init__(self, BASE_URL, headers):
self.BASE_URL = BASE_URL
self.headers = headers
self.URL = self.BASE_URL + '?delimiter=/'
def clean_root(self, root):
"Needed to clean the URL prefix in front of each XML element"
for elem in root.getiterator():
elem.tag = etree.QName(elem).localname
return etree.cleanup_namespaces(root)
def get_root_folder_names(self):
"Retrieve the folders"
res = requests.get(self.URL, headers=self.headers)
root = etree.XML(res.content)
print(f"{root}") # prints: "root: <Element {http://s3.amazonaws.com/doc/2016-11-11/}ListBucketResult at 0x8f87b456e441>"
print(f"{self.clean_root(root)}") # prints: "None", where it must prints "<Element ListBucketResult at 0x8f87b456e441>"
叫它:
myInstance = scraper(BASE_URL, headers)
myInstance.get_root_folder_names()
如果我從get_root_folder_names
function 調用clean_tree(root)
,則結果為None
,就好像它從未應用過一樣。 但是root
在調用此 function 之前確實存在,因為它已正確打印。 我從這里得到啟發: https://www.kite.com/python/answers/how-to-call-an-instance-method-in-the-same-class-in-python
我究竟做錯了什么?
我還嘗試在沒有 self 的情況下使用clean_root
function self.
但是,當我從get_root_folder_names
function 調用它時,我得到了NameError: name 'clean_tree' is not defined
。
問題不在於從其他函數調用函數。 它將純函數與具有副作用的函數混淆了。
function cleanup_namespaces
返回None
。 它修改樹,而不是創建一個新樹(這就像初學者經常遇到的問題list.sort
)。
將clean_root
function 的末尾更改為:
etree.cleanup_namespaces(root)
return root
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.