簡體   English   中英

Web 刮不刮變化

[英]Web scraping but not scraping changes

嘗試在此頁面上監視更改: at5.nl/zoek/pijp “pijp”是這里的查詢關鍵字。 它顯示了最新的文章列表:

[在此處輸入圖像描述][1] 當我使用 curl 或 wget(附上示例)抓取此頁面時,我看不到結果文件隨時間或使用不同關鍵字的任何變化。 檢查文件的內容(顯然)與我在瀏覽器中看到的內容沒有任何關系。 遇到很多 javascript。 我的第一個目標是查看瀏覽器 output 是否從腳本中發生變化。 該腳本每 5 分鍾檢查一次,然后在發生更改時發送@mail。

正如您可能已經猜到的那樣,我絕對不是 web 開發人員。 關於如何刮掉我想要的更改的任何指示? (相當精通bash)

這是我使用 cURL 獲得的文件的鏈接:

https://drive.google.com/file/d/1-QzoTgbqc_m96YOx6qBh1eIBDyD5HfW_/view?usp=sharing

正如@James 指出的那樣,您可以使用 API-url 並根據自己的喜好解析生成的 JSON。 JSON 解析器可以幫助您:

$ xidel -s \
  -d '{{"searchTerm":"pijp"}}' \
  "https://ditisdesupercooleappapi.at5.nl/api/search" \
  -e '$json/(articles)()[created gt (current-dateTime() - dateTime("1970-01-01T00:05:00Z")) div dayTimeDuration("PT1S")]'

“pijp”(作為 JSON 對象中的值)被發送(POST-request)到 API-url,之后生成的 JSON 被解析為它只會返回那些具有created屬性的文章,其值(一個Epoch 時間戳)只有 5 分鍾。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM