Pandas read_html 始终为表返回 NaN

Question

我已经尝试了这里建议的许多变体，但我还没有解决这个问题。 我开始于

page = requests.get('http://eresearch.fidelity.com/eresearch/markets_sectors/sectors/sectors_in_market.jhtml?tab=industries&sector=10')
df_list = pd.read_html(page.text)

我可以看到正确的标题，所以我正在寻找正确的位置。 然后我尝试将风格更改为 bs4 和 html5lib，但没有任何变化。 我总是看到 NaN 的数据值，只有一个索引，索引 0，而应该有 3 或 4。我最初的尝试与同一网站的不同表格的另一段代码相同，并且效果很好。 （也是第一篇文章，请让我知道如何改进它们）

Answer 1

不幸的是，我不得不使用 selenium 来检索 dataframe。但如果这不是问题，请随意尝试以下操作：

from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('<PATH_TO_WEBDRIVER>')
driver.get('https://eresearch.fidelity.com/eresearch/markets_sectors/sectors/sectors_in_market.jhtml?tab=industries&sector=10')
df = pd.read_html(driver.find_element_by_id('tableSort').get_attribute('outerHTML'))[0]

使用这个脚本，我得到了以下 df：

Pandas read_html 始终为表返回 NaN

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-02-13 20:51:31

Pandas read_html 始终为表返回 NaN

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-02-13 20:51:31

解决方案1
0 已采纳 2022-02-13 20:51:31