[英]Pandas read_html always returns NaNs for table
我已经尝试了这里建议的许多变体,但我还没有解决这个问题。 我开始于
page = requests.get('http://eresearch.fidelity.com/eresearch/markets_sectors/sectors/sectors_in_market.jhtml?tab=industries§or=10')
df_list = pd.read_html(page.text)
我可以看到正确的标题,所以我正在寻找正确的位置。 然后我尝试将风格更改为 bs4 和 html5lib,但没有任何变化。 我总是看到 NaN 的数据值,只有一个索引,索引 0,而应该有 3 或 4。我最初的尝试与同一网站的不同表格的另一段代码相同,并且效果很好。 (也是第一篇文章,请让我知道如何改进它们)
不幸的是,我不得不使用 selenium 来检索 dataframe。但如果这不是问题,请随意尝试以下操作:
from selenium import webdriver
import pandas as pd
driver = webdriver.Chrome('<PATH_TO_WEBDRIVER>')
driver.get('https://eresearch.fidelity.com/eresearch/markets_sectors/sectors/sectors_in_market.jhtml?tab=industries§or=10')
df = pd.read_html(driver.find_element_by_id('tableSort').get_attribute('outerHTML'))[0]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.