lxml etree cleanup_namespaces 返回 None 而不是清理的樹

Question

我寫了一個小的 class 用於抓取包含文件夾內一些文檔的網頁，所有這些都托管在 S3 上。 我將響應轉換為 XML 樹，我需要從前綴 URL 中清除每個元素。

這是代碼和問題：

import requests
from lxml import etree

class scraper():

    def __init__(self, BASE_URL, headers):
        self.BASE_URL = BASE_URL
        self.headers = headers
        self.URL = self.BASE_URL + '?delimiter=/'

    def clean_root(self, root):
        "Needed to clean the URL prefix in front of each XML element"
        for elem in root.getiterator():
            elem.tag = etree.QName(elem).localname

        return etree.cleanup_namespaces(root)
    
    def get_root_folder_names(self):
        "Retrieve the folders"
        res = requests.get(self.URL, headers=self.headers)
        root = etree.XML(res.content)
        print(f"{root}")                  # prints: "root: <Element {http://s3.amazonaws.com/doc/2016-11-11/}ListBucketResult at 0x8f87b456e441>" 
        print(f"{self.clean_root(root)}") # prints: "None", where it must prints "<Element ListBucketResult at 0x8f87b456e441>"

叫它：

myInstance = scraper(BASE_URL, headers)
myInstance.get_root_folder_names()

如果我從get_root_folder_names function 調用clean_tree(root) ，則結果為None ，就好像它從未應用過一樣。 但是root在調用此 function 之前確實存在，因為它已正確打印。 我從這里得到啟發： https://www.kite.com/python/answers/how-to-call-an-instance-method-in-the-same-class-in-python

我究竟做錯了什么？

我還嘗試在沒有 self 的情況下使用clean_root function self. 但是，當我從get_root_folder_names function 調用它時，我得到了NameError: name 'clean_tree' is not defined 。

Answer 1

問題不在於從其他函數調用函數。 它將純函數與具有副作用的函數混淆了。

function cleanup_namespaces返回None 。 它修改樹，而不是創建一個新樹（這就像初學者經常遇到的問題list.sort ）。

將clean_root function 的末尾更改為：

etree.cleanup_namespaces(root)
return root

lxml etree cleanup_namespaces 返回 None 而不是清理的樹

問題描述

1 個解決方案

解決方案1
3 已采納 2021-02-27 23:04:28

lxml etree cleanup_namespaces 返回 None 而不是清理的樹

問題描述

1 個解決方案

解決方案1 3 已采納 2021-02-27 23:04:28

解決方案1
3 已采納 2021-02-27 23:04:28