[英]Parsing table to csv Python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = "https://ege.hse.ru/rating/2019/81031971/all/?rlist=&ptype=0&vuz-abiturients-budget-order=ge&vuz-abiturients-budget-val=10"
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
tbl = soup.find("table", {"id": "transparence_t"})
data_frame = pd.read_html(str(tbl))[0]
data_frame.to_csv('hseparser.csv')
我解析它,但數據在 A1 到 A699 單元格上。 我需要將數據粉碎到不同的單元格。 請幫我!
Pandas read_html
已經從給定的 url 讀取所有表並返回一個表列表。 您不必明確使用BeautifulSoup
包。
>>> url = 'https://ege.hse.ru/rating/2019/81031971/all/?rlist=&ptype=0&vuz-abiturients-budget-order=ge&vuz-abiturients-budget-val=10'
>>> df = pd.read_html(url)
>>> len(df)
2
>>> df[0].head()
0 1
0 Регион Все Алтайский край Амурская область Арханге...
1 Тип вуза Все Государственный Головной Филиал Негосу...
2 Вузы с набором больше меньше человек на бюд... Вузы с набором больше меньше человек на бюд...
>>> df[1].head()
Вуз Качество приема на основании среднего балла ЕГЭ зачисленных на бюджетные места 2019 ... Из них: без экзаменов Ср.балл рассчитан с вычетом баллов за И.Д.?
0 Адыгейский гос. ун-т., г. Майкоп 60.5 ... 1 Нет
1 Азово-Черноморский инженерный ин-т. - филиал Д... 45.5 ... 0 Нет
2 Академия труда и социальных отношений, г. Москва 77.8 ... 0 Да
3 Алтайский гос. аграрный ун-т., г. Барнаул 54.7 ... 0 Нет
4 Алтайский гос. гуманитарно-педагогический ун-т... 59.7 ... 0 Да
[5 rows x 6 columns]
將此數據幀保存到 csv 將包含不同單元格中的所有數據。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.