繁体   English   中英

使用熊猫read_html函数提取表?

[英]Extracting tables using pandas read_html function?

这是一个不寻常的问题。 我正在尝试从某些网站提取表格(出于安全原因,无法提供链接)。 问题在于,当通过网站访问网站时,站点将加载该表,但是当我们在该表上的任何值/表上使用inspect element时,该表将不可见。 它只是显示<html>_</html>以及一些脚本和链接。 最初,我尝试使用beautifulsoup提取表,但未成功。 然后,我使用了pandas pandas.read_html(html)但该站点包含多个表,其输出类似这样

[     Code                   Name  
 0    A                      John   
 1    B                      Terry
 2    C                      Kitty 


    Column 1 Column 2    Column 3
0       1   0.6173661242    8
1       2   0.7232098163    20
2       3   0.9954581943    39
3       4   0.5595425507    18
4       5   0.9644025159    20
5       6   0.3914102544    29
6       7   0.0154642132    49

....

[873 rows x 3 columns],

0\n\t\t\t\t\t\t\t\t\t  
 0                                                  0    ]

然后我尝试了类似这样的东西pandas.read_html(html, match="Column 1")它返回此错误

ValueError:找不到与模式“列1”匹配的表

知道如何使用read_html提取表吗?

从安全网站上抓取数据时,该网站可能正在使用Java加载表,因此您永远不会看到HTML样式的代码。 这就是为什么BeautifulSoup不返回任何内容的原因。

“内部的脚本和链接”看起来像Java吗?

也许看看硒?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM