[英]How to skip columns when making a pandas DataFrame from bs4?
我正在尝试使用 Python 和 BeautifulSoup4 从网站上刮一张桌子。 然后我想输出表格,但我想跳过表格的前 5 列。 这是我的代码
def scrape_data():
url1 = "https://basketball-reference.com/leagues/NBA_2020_advanced.html"
html1 = urlopen(url1)
soup1 = bs(html1, 'html.parser')
soup1.findAll('tr', limit = 2)
headers1 = [th.getText() for th in soup1.findAll('tr', limit = 2)[0].findAll('th')]
headers1 = headers1[5:]
rows1 = soup1.findAll('tr')[1:]
player_stats = [[td.getText() for td in rows1[i].findAll('td')]for i in range(len(rows1))]
stats1 = pd.DataFrame(player_stats, columns=headers1)
return stats1
我得到的错误是ValueError: 24 columns passed, passed data had 28 columns
我知道错误来自stats1 = pd.DataFrame(player_stats, columns=headers1)
但是我该如何解决呢?
只需在结果数据帧上使用iloc
。 请注意, read_html
返回一个数据帧列表,尽管每个 url 只有一个。 您需要通过pd.read_html(url)[0]
访问此单个数据pd.read_html(url)[0]
。 然后只需使用iloc
忽略前五列。
url = "https://basketball-reference.com/leagues/NBA_2020_advanced.html"
df = pd.read_html(url)[0].iloc[:, 5:]
感谢@JonClements 的帮助,我解决了这个问题。 我的工作代码是
def scrape_data():
url1 = "https://basketball-reference.com/leagues/NBA_2020_advanced.html"
html1 = urlopen(url1)
soup1 = bs(html1, 'html.parser')
soup1.findAll('tr', limit = 2)
headers1 = [th.getText() for th in soup1.findAll('tr', limit = 2)[0].findAll('th')]
headers1 = headers1[5:]
rows1 = soup1.findAll('tr')[1:]
player_stats = [[td.getText() for td in rows1[i].findAll('td')[4:]]for i in range(len(rows1))]
stats1 = pd.DataFrame(player_stats, columns=headers1)
return stats1
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.