![](/img/trans.png)
[英]Selenium Python Pull Data from Dynamic Table that refreshes every 5 seconds
[英]Scraping data from website that refreshes every 10 minutes in python
一般來說,我對 web 刮擦和 python 非常陌生。 我正在做一個項目,該項目要求我從每 10 分鍾刷新/更新一次數據的網站上抓取數據。 我能夠抓取當前 10 分鍾的數據,但是當數據刷新時,以前的數據不再有效。 我需要3件事的幫助-
網站頂部有一個輸入時間戳。 如何更改該輸入中的時間以僅獲取該特定時間段的數據? 在此處輸入圖像描述
我目前的代碼是 -
import requests
import pandas as pd
import datetime as dt
from datetime import datetime
URL1 = "URL.com"
tables1= pd.read_html(URL1)
print("There are : ",len(tables1)," tables1")
PartUsage=pd.DataFrame(tables1[8])
now=datetime.now()
PartUsage["Date"]=now
PartUsage.set_index("Date", inplace=True)
from pathlib import Path
filepath = Path('Path.csv')
filepath.parent.mkdir(parents=True, exist_ok=True)
PartUsage.to_csv(filepath)
我添加了時間戳,因為所需表中沒有時間戳。 如何鏈接時間戳以將其用作輸入?
這是公司特定的數據,因此我無法提供鏈接或任何進一步的細節。 任何幫助將不勝感激。 謝謝
您可以為此使用Cron應用程序。 這是一個應用程序,它按特定的時間表運行一些腳本。 為方便起見,您還可以將其部署在自動運行的 docker 容器中。 有關 cron 的更多信息,您可以在此處找到: How do I get a Cron like scheduler in Python?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.