[英]Extracting tables using pandas read_html function?
這是一個不尋常的問題。 我正在嘗試從某些網站提取表格(出於安全原因,無法提供鏈接)。 問題在於,當通過網站訪問網站時,站點將加載該表,但是當我們在該表上的任何值/表上使用inspect element
時,該表將不可見。 它只是顯示<html>_</html>
以及一些腳本和鏈接。 最初,我嘗試使用beautifulsoup
提取表,但未成功。 然后,我使用了pandas pandas.read_html(html)
但該站點包含多個表,其輸出類似這樣
[ Code Name
0 A John
1 B Terry
2 C Kitty
Column 1 Column 2 Column 3
0 1 0.6173661242 8
1 2 0.7232098163 20
2 3 0.9954581943 39
3 4 0.5595425507 18
4 5 0.9644025159 20
5 6 0.3914102544 29
6 7 0.0154642132 49
....
[873 rows x 3 columns],
0\n\t\t\t\t\t\t\t\t\t
0 0 ]
然后我嘗試了類似這樣的東西pandas.read_html(html, match="Column 1")
它返回此錯誤
ValueError:找不到與模式“列1”匹配的表
知道如何使用read_html提取表嗎?
從安全網站上抓取數據時,該網站可能正在使用Java加載表,因此您永遠不會看到HTML樣式的代碼。 這就是為什么BeautifulSoup不返回任何內容的原因。
“內部的腳本和鏈接”看起來像Java嗎?
也許看看硒?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.