使用熊猫read_html函数提取表？

Question

这是一个不寻常的问题。 我正在尝试从某些网站提取表格（出于安全原因，无法提供链接）。 问题在于，当通过网站访问网站时，站点将加载该表，但是当我们在该表上的任何值/表上使用inspect element时，该表将不可见。 它只是显示<html>_</html>以及一些脚本和链接。 最初，我尝试使用beautifulsoup提取表，但未成功。 然后，我使用了pandas pandas.read_html(html)但该站点包含多个表，其输出类似这样

[     Code                   Name  
 0    A                      John   
 1    B                      Terry
 2    C                      Kitty 


    Column 1 Column 2    Column 3
0       1   0.6173661242    8
1       2   0.7232098163    20
2       3   0.9954581943    39
3       4   0.5595425507    18
4       5   0.9644025159    20
5       6   0.3914102544    29
6       7   0.0154642132    49

....

[873 rows x 3 columns],

0\n\t\t\t\t\t\t\t\t\t  
 0                                                  0    ]

然后我尝试了类似这样的东西pandas.read_html(html, match="Column 1")它返回此错误

ValueError：找不到与模式“列1”匹配的表

知道如何使用read_html提取表吗？

Answer 1

从安全网站上抓取数据时，该网站可能正在使用Java加载表，因此您永远不会看到HTML样式的代码。 这就是为什么BeautifulSoup不返回任何内容的原因。

“内部的脚本和链接”看起来像Java吗？

也许看看硒？

使用熊猫read_html函数提取表？

问题描述

1 个解决方案

解决方案1
0 2016-08-30 16:01:55

使用熊猫read_html函数提取表？

问题描述

1 个解决方案

解决方案1 0 2016-08-30 16:01:55

解决方案1
0 2016-08-30 16:01:55