使用熊貓read_html函數提取表？

Question

這是一個不尋常的問題。 我正在嘗試從某些網站提取表格（出於安全原因，無法提供鏈接）。 問題在於，當通過網站訪問網站時，站點將加載該表，但是當我們在該表上的任何值/表上使用inspect element時，該表將不可見。 它只是顯示<html>_</html>以及一些腳本和鏈接。 最初，我嘗試使用beautifulsoup提取表，但未成功。 然后，我使用了pandas pandas.read_html(html)但該站點包含多個表，其輸出類似這樣

[     Code                   Name  
 0    A                      John   
 1    B                      Terry
 2    C                      Kitty 


    Column 1 Column 2    Column 3
0       1   0.6173661242    8
1       2   0.7232098163    20
2       3   0.9954581943    39
3       4   0.5595425507    18
4       5   0.9644025159    20
5       6   0.3914102544    29
6       7   0.0154642132    49

....

[873 rows x 3 columns],

0\n\t\t\t\t\t\t\t\t\t  
 0                                                  0    ]

然后我嘗試了類似這樣的東西pandas.read_html(html, match="Column 1")它返回此錯誤

ValueError：找不到與模式“列1”匹配的表

知道如何使用read_html提取表嗎？

Answer 1

從安全網站上抓取數據時，該網站可能正在使用Java加載表，因此您永遠不會看到HTML樣式的代碼。 這就是為什么BeautifulSoup不返回任何內容的原因。

“內部的腳本和鏈接”看起來像Java嗎？

也許看看硒？

使用熊貓read_html函數提取表？

問題描述

1 個解決方案

解決方案1
0 2016-08-30 16:01:55

使用熊貓read_html函數提取表？

問題描述

1 個解決方案

解決方案1 0 2016-08-30 16:01:55

解決方案1
0 2016-08-30 16:01:55