從 python 中每 10 分鍾刷新一次的網站抓取數據

Question

一般來說，我對 web 刮擦和 python 非常陌生。 我正在做一個項目，該項目要求我從每 10 分鍾刷新/更新一次數據的網站上抓取數據。 我能夠抓取當前 10 分鍾的數據，但是當數據刷新時，以前的數據不再有效。 我需要3件事的幫助-

網站頂部有一個輸入時間戳。 如何更改該輸入中的時間以僅獲取該特定時間段的數據？ 在此處輸入圖像描述
我目前的代碼是 -

    import requests
    import pandas as pd
    import datetime as dt
    from datetime import datetime
    
    URL1 = "URL.com"
    
    tables1= pd.read_html(URL1)
    
    print("There are : ",len(tables1)," tables1")
    
    PartUsage=pd.DataFrame(tables1[8])
    
    now=datetime.now()
    PartUsage["Date"]=now
    PartUsage.set_index("Date", inplace=True)
    
    from pathlib import Path  
    filepath = Path('Path.csv')  
    filepath.parent.mkdir(parents=True, exist_ok=True)  
    PartUsage.to_csv(filepath)

我添加了時間戳，因為所需表中沒有時間戳。 如何鏈接時間戳以將其用作輸入？

這是公司特定的數據，因此我無法提供鏈接或任何進一步的細節。 任何幫助將不勝感激。 謝謝

Answer 1

您可以為此使用Cron應用程序。 這是一個應用程序，它按特定的時間表運行一些腳本。 為方便起見，您還可以將其部署在自動運行的 docker 容器中。 有關 cron 的更多信息，您可以在此處找到： How do I get a Cron like scheduler in Python?

從 python 中每 10 分鍾刷新一次的網站抓取數據

問題描述

1 個解決方案

解決方案1
0 2022-08-25 18:30:26

從 python 中每 10 分鍾刷新一次的網站抓取數據

問題描述

1 個解決方案

解決方案1 0 2022-08-25 18:30:26

解決方案1
0 2022-08-25 18:30:26