使用beautifulsoup直接抓取HTML表格？

Question

有沒有直接的方法來抓取 HTML 表格？ 如果我們給出 HTML table 的類並提供結果，那會很棒嗎？

例如，我需要獲取此URL 的表

我可以使用這個程序，但我需要一個干凈或直接的解決方案

Answer 1

好吧，那么試試這個：

import requests
import pandas as pd

url = "https://buchholz-stadtwerke.de/wasseranalyse.html"

df = pd.read_html(requests.get(url).text, flavor="bs4")
df = pd.concat(df)
df.to_csv("data.csv", index=False)
print(df)

輸出：

[                    Parameter  Einheit    Grenzwert Messwert, Februar 2020
0            Wassertemperatur       °C          NaN                     98
1         Leitfähigkeit (25°)    µS/cm         2790                    302
2   Sauerstoff (elektrochem.)     mg/l          NaN                    109
3                     pH-Wert      NaN  6,5 bis 9,5                    806
4             Sättigungsindex      NaN          NaN                    001
5         Karbonathärte (dH°)      °dH          NaN                    454
6           Gesamthärte (dH°)      °dH          NaN                    645
7                Härtebereich      NaN          NaN                  weich
8         Calcitlösekapazität     mg/l            5                    -01
and so on...

此外，這會輸出一個包含表中數據的.csv文件。

編輯：

這種感覺就像一個黑客，但它的工作原理。 根據注釋和 URL，您可以遍歷df的表並將它們拆分為單獨的文件。

import requests
import pandas as pd

url = "https://www.swd-ag.de/energie-wasser/wasser/trinkwasseranalyse/"

df = pd.read_html(io=requests.get(url).text, flavor="bs4")
for index, table in enumerate(df, start=1):
    table.to_csv(f"table_{index}.csv", index=False)

使用beautifulsoup直接抓取HTML表格？

問題描述

1 個解決方案

解決方案1
1 已采納 2020-09-25 09:37:24

使用beautifulsoup直接抓取HTML表格？

問題描述

1 個解決方案

解決方案1 1 已采納 2020-09-25 09:37:24

解決方案1
1 已采納 2020-09-25 09:37:24