[英]Extract file from gzip folder
我試圖從單擊此處網站(“僅供參考,此鏈接到SEC網站”)上的“ SEC Investment Adviser Report”按鈕出來的gzip中提取XML文件。 下面是我的(最小)代碼。 我繼續得到“嵌入的空字符”或“嵌入的空字節”,這取決於我是否喂gzip.open()
.text
或.content
來自我的要求。 誰能幫助我加載此文件,以便我可以訪問XML?
import requests
import gzip
file = gzip.open(requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC').text,'rt')
gzip.open使用文件名,而不是壓縮數據。 您可以使用gzip.decompress 。
您問題的歸檔文件格式不正確。 具體來說,由於某種原因,它附加了HTML。
以下僅通過使用HTML開頭之前的內容來工作:
import requests
import gzip
request = requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC')
xml = gzip.decompress(request.content[:request.content.find(b"\r\n\r\n<!DOCTYPE html>") - 1])
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.