抓取 EDGAR HTML 文件並希望轉換為數據框

Question

我是抓取網站的新手

url = 'https://www.sec.gov/Archives/edgar/data/1383094/000095013120003579/d33910dex991.htm'

df = pd.read_html(url, parse_dates=[0])[0]
print (df.head())

這是我的代碼，我想從該網站提取所有數據，但結果始終是第一個“主體”

0   1   2           3   4
0                           NaN NaN NaN         NaN NaN
1  Collection Period Beginning: NaN NaN  08/01/2020 NaN
2     Collection Period Ending: NaN NaN  08/31/2020 NaN
3  Previous Payment/Close Date: NaN NaN  08/17/2020 NaN
4                  Payment Date NaN NaN  09/15/2020 NaN

我怎樣才能得到其余的？

Answer 1

pd.read_html返回所有表的列表。 您只是在閱讀初始表，因此它為您提供了一個 df。

嘗試：

df = pd.read_html(url, parse_dates=[0])
df1 = df[0]
df2 = df[1]

.. 等讀取索引處的所有 df。 df 保存列表，您可以訪問每個索引處的列表元素。

抓取 EDGAR HTML 文件並希望轉換為數據框

問題描述

1 個解決方案

解決方案1
0 已采納 2020-09-26 04:50:55

抓取 EDGAR HTML 文件並希望轉換為數據框

問題描述

1 個解決方案

解決方案1 0 已采納 2020-09-26 04:50:55

解決方案1
0 已采納 2020-09-26 04:50:55