[英]Scraping EDGAR HTML file and want to convert into dataframe
我是抓取網站的新手
url = 'https://www.sec.gov/Archives/edgar/data/1383094/000095013120003579/d33910dex991.htm'
df = pd.read_html(url, parse_dates=[0])[0]
print (df.head())
這是我的代碼,我想從該網站提取所有數據,但結果始終是第一個“主體”
0 1 2 3 4
0 NaN NaN NaN NaN NaN
1 Collection Period Beginning: NaN NaN 08/01/2020 NaN
2 Collection Period Ending: NaN NaN 08/31/2020 NaN
3 Previous Payment/Close Date: NaN NaN 08/17/2020 NaN
4 Payment Date NaN NaN 09/15/2020 NaN
我怎樣才能得到其余的?
pd.read_html
返回所有表的列表。 您只是在閱讀初始表,因此它為您提供了一個 df。
嘗試 :
df = pd.read_html(url, parse_dates=[0])
df1 = df[0]
df2 = df[1]
.. 等讀取索引處的所有 df。 df 保存列表,您可以訪問每個索引處的列表元素。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.