從gzip文件夾中提取文件

Question

我試圖從單擊此處網站（“僅供參考，此鏈接到SEC網站”）上的“ SEC Investment Adviser Report”按鈕出來的gzip中提取XML文件。 下面是我的（最小）代碼。 我繼續得到“嵌入的空字符”或“嵌入的空字節”，這取決於我是否喂gzip.open() .text或.content來自我的要求。 誰能幫助我加載此文件，以便我可以訪問XML？

import requests
import gzip

file = gzip.open(requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC').text,'rt')

Answer 1

gzip.open使用文件名，而不是壓縮數據。 您可以使用gzip.decompress 。

您問題的歸檔文件格式不正確。 具體來說，由於某種原因，它附加了HTML。

以下僅通過使用HTML開頭之前的內容來工作：

import requests
import gzip

request = requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC')

xml = gzip.decompress(request.content[:request.content.find(b"\r\n\r\n<!DOCTYPE html>") - 1])

從gzip文件夾中提取文件

問題描述

1 個解決方案

解決方案1
3 已采納 2017-12-20 22:01:59

從gzip文件夾中提取文件

問題描述

1 個解決方案

解決方案1 3 已采納 2017-12-20 22:01:59

解決方案1
3 已采納 2017-12-20 22:01:59