簡體   English   中英

從 python 中每 10 分鍾刷新一次的網站抓取數據

[英]Scraping data from website that refreshes every 10 minutes in python

一般來說,我對 web 刮擦和 python 非常陌生。 我正在做一個項目,該項目要求我從每 10 分鍾刷新/更新一次數據的網站上抓取數據。 我能夠抓取當前 10 分鍾的數據,但是當數據刷新時,以前的數據不再有效。 我需要3件事的幫助-

  1. 網站頂部有一個輸入時間戳。 如何更改該輸入中的時間以僅獲取該特定時間段的數據? 在此處輸入圖像描述

  2. 我目前的代碼是 -

    import requests
    import pandas as pd
    import datetime as dt
    from datetime import datetime
    
    URL1 = "URL.com"
    
    tables1= pd.read_html(URL1)
    
    print("There are : ",len(tables1)," tables1")
    
    PartUsage=pd.DataFrame(tables1[8])
    
    now=datetime.now()
    PartUsage["Date"]=now
    PartUsage.set_index("Date", inplace=True)
    
    from pathlib import Path  
    filepath = Path('Path.csv')  
    filepath.parent.mkdir(parents=True, exist_ok=True)  
    PartUsage.to_csv(filepath)

我添加了時間戳,因為所需表中沒有時間戳。 如何鏈接時間戳以將其用作輸入?

這是公司特定的數據,因此我無法提供鏈接或任何進一步的細節。 任何幫助將不勝感激。 謝謝

您可以為此使用Cron應用程序。 這是一個應用程序,它按特定的時間表運行一些腳本。 為方便起見,您還可以將其部署在自動運行的 docker 容器中。 有關 cron 的更多信息,您可以在此處找到: How do I get a Cron like scheduler in Python?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM