繁体   English   中英

Pandas read_html 始终为表返回 NaN

[英]Pandas read_html always returns NaNs for table

我已经尝试了这里建议的许多变体,但我还没有解决这个问题。 我开始于

page = requests.get('http://eresearch.fidelity.com/eresearch/markets_sectors/sectors/sectors_in_market.jhtml?tab=industries&sector=10')
df_list = pd.read_html(page.text)

我可以看到正确的标题,所以我正在寻找正确的位置。 然后我尝试将风格更改为 bs4 和 html5lib,但没有任何变化。 我总是看到 NaN 的数据值,只有一个索引,索引 0,而应该有 3 或 4。我最初的尝试与同一网站的不同表格的另一段代码相同,并且效果很好。 (也是第一篇文章,请让我知道如何改进它们)

不幸的是,我不得不使用 selenium 来检索 dataframe。但如果这不是问题,请随意尝试以下操作:

from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('<PATH_TO_WEBDRIVER>')
driver.get('https://eresearch.fidelity.com/eresearch/markets_sectors/sectors/sectors_in_market.jhtml?tab=industries&sector=10')
df = pd.read_html(driver.find_element_by_id('tableSort').get_attribute('outerHTML'))[0]

使用这个脚本,我得到了以下 df: 来自给定链接的熊猫数据框

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM