[英]Directly Scraping HTML table using beautifulsoup?
好吧,那么試試這個:
import requests
import pandas as pd
url = "https://buchholz-stadtwerke.de/wasseranalyse.html"
df = pd.read_html(requests.get(url).text, flavor="bs4")
df = pd.concat(df)
df.to_csv("data.csv", index=False)
print(df)
輸出:
[ Parameter Einheit Grenzwert Messwert, Februar 2020
0 Wassertemperatur °C NaN 98
1 Leitfähigkeit (25°) µS/cm 2790 302
2 Sauerstoff (elektrochem.) mg/l NaN 109
3 pH-Wert NaN 6,5 bis 9,5 806
4 Sättigungsindex NaN NaN 001
5 Karbonathärte (dH°) °dH NaN 454
6 Gesamthärte (dH°) °dH NaN 645
7 Härtebereich NaN NaN weich
8 Calcitlösekapazität mg/l 5 -01
and so on...
此外,這會輸出一個包含表中數據的.csv
文件。
編輯:
這種感覺就像一個黑客,但它的工作原理。 根據注釋和 URL,您可以遍歷df
的表並將它們拆分為單獨的文件。
import requests
import pandas as pd
url = "https://www.swd-ag.de/energie-wasser/wasser/trinkwasseranalyse/"
df = pd.read_html(io=requests.get(url).text, flavor="bs4")
for index, table in enumerate(df, start=1):
table.to_csv(f"table_{index}.csv", index=False)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.