簡體   English   中英

使用熊貓read_html函數提取表?

[英]Extracting tables using pandas read_html function?

這是一個不尋常的問題。 我正在嘗試從某些網站提取表格(出於安全原因,無法提供鏈接)。 問題在於,當通過網站訪問網站時,站點將加載該表,但是當我們在該表上的任何值/表上使用inspect element時,該表將不可見。 它只是顯示<html>_</html>以及一些腳本和鏈接。 最初,我嘗試使用beautifulsoup提取表,但未成功。 然后,我使用了pandas pandas.read_html(html)但該站點包含多個表,其輸出類似這樣

[     Code                   Name  
 0    A                      John   
 1    B                      Terry
 2    C                      Kitty 


    Column 1 Column 2    Column 3
0       1   0.6173661242    8
1       2   0.7232098163    20
2       3   0.9954581943    39
3       4   0.5595425507    18
4       5   0.9644025159    20
5       6   0.3914102544    29
6       7   0.0154642132    49

....

[873 rows x 3 columns],

0\n\t\t\t\t\t\t\t\t\t  
 0                                                  0    ]

然后我嘗試了類似這樣的東西pandas.read_html(html, match="Column 1")它返回此錯誤

ValueError:找不到與模式“列1”匹配的表

知道如何使用read_html提取表嗎?

從安全網站上抓取數據時,該網站可能正在使用Java加載表,因此您永遠不會看到HTML樣式的代碼。 這就是為什么BeautifulSoup不返回任何內容的原因。

“內部的腳本和鏈接”看起來像Java嗎?

也許看看硒?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM