通过BS4将Scraped Table加载到Pandas Dataframe中

Question

我正试图从这里获取任何Basic Box Score Stat或Advanced Box Score Stats表

我尝试过这样的事情：

url = "http://www.basketball-reference.com/boxscores/200112100LAC.html"
page = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'})
soup = BeautifulSoup(page.content, "html5lib")

table =  soup.find('div', class_='overthrow table_container').find('table',class_='sortable stats_table')
df = pd.read_html(table)
print df

但是由于NoneType'对象错误，它不起作用。 有没有更好的方法来获取表格代码并将其放入数据框？ 谢谢。

Answer 1

您可以使用read_html返回所有已解析表中的DataFrame列表：

df = pd.read_html('http://www.basketball-reference.com/boxscores/200112100LAC.html')[0] # or [1], [2]
print (df)

Answer 2

table是BeautifulSoup中的标记对象，您应该将其转换为字符串并将其传递给pandas

prettify()方法将Beautiful Soup解析树转换为格式良好的Unicode字符串，每个HTML / XML标记都在其自己的行上：

df = pd.read_html(table.prettify())

Answer 3

在pd.read_html（）中直接传递汤使用：

df = pd.read_html(driver.page_source)

这里的驱动程序是一个webdriver（在我的情况下为chrome）
webdriver中打开的链接将传递给pandas pd.read_html（）

通过BS4将Scraped Table加载到Pandas Dataframe中

问题描述

3 个解决方案

解决方案1
8 已采纳 2016-12-12 12:02:48

解决方案2
4 2016-12-12 12:06:33

解决方案3
0 2019-07-24 09:04:49

通过BS4将Scraped Table加载到Pandas Dataframe中

问题描述

3 个解决方案

解决方案1 8 已采纳 2016-12-12 12:02:48

解决方案2 4 2016-12-12 12:06:33

解决方案3 0 2019-07-24 09:04:49

解决方案1
8 已采纳 2016-12-12 12:02:48

解决方案2
4 2016-12-12 12:06:33

解决方案3
0 2019-07-24 09:04:49