[英]Extracting tables using pandas read_html function?
这是一个不寻常的问题。 我正在尝试从某些网站提取表格(出于安全原因,无法提供链接)。 问题在于,当通过网站访问网站时,站点将加载该表,但是当我们在该表上的任何值/表上使用inspect element
时,该表将不可见。 它只是显示<html>_</html>
以及一些脚本和链接。 最初,我尝试使用beautifulsoup
提取表,但未成功。 然后,我使用了pandas pandas.read_html(html)
但该站点包含多个表,其输出类似这样
[ Code Name
0 A John
1 B Terry
2 C Kitty
Column 1 Column 2 Column 3
0 1 0.6173661242 8
1 2 0.7232098163 20
2 3 0.9954581943 39
3 4 0.5595425507 18
4 5 0.9644025159 20
5 6 0.3914102544 29
6 7 0.0154642132 49
....
[873 rows x 3 columns],
0\n\t\t\t\t\t\t\t\t\t
0 0 ]
然后我尝试了类似这样的东西pandas.read_html(html, match="Column 1")
它返回此错误
ValueError:找不到与模式“列1”匹配的表
知道如何使用read_html提取表吗?
从安全网站上抓取数据时,该网站可能正在使用Java加载表,因此您永远不会看到HTML样式的代码。 这就是为什么BeautifulSoup不返回任何内容的原因。
“内部的脚本和链接”看起来像Java吗?
也许看看硒?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.