簡體   English   中英

從gzip文件夾中提取文件

[英]Extract file from gzip folder

我試圖從單擊此處網站(“僅供參考,此鏈接到SEC網站”)上的“ SEC Investment Adviser Report”按鈕出來的gzip中提取XML文件。 下面是我的(最小)代碼。 我繼續得到“嵌入的空字符”或“嵌入的空字節”,這取決於我是否喂gzip.open() .text.content來自我的要求。 誰能幫助我加載此文件,以便我可以訪問XML?

import requests
import gzip

file = gzip.open(requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC').text,'rt')

gzip.open使用文件名,而不是壓縮數據。 您可以使用gzip.decompress

您問題的歸檔文件格式不正確。 具體來說,由於某種原因,它附加了HTML。

以下僅通過使用HTML開頭之前的內容來工作:

import requests
import gzip

request = requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC')

xml = gzip.decompress(request.content[:request.content.find(b"\r\n\r\n<!DOCTYPE html>") - 1])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM