簡體   English   中英

Drupal URL結構進行抓取

[英]Drupal URL structure for scraping

過去,我嘗試使用Python腳本抓取Drupal網站的音樂演出。

在使用wordpress網站進行此操作時,我將遍歷如下網址:

http://wordpressevents.com/?p=1 ... http://wordpressevents.com/?p=10000

...這將使我轉到可以抓取的頁面(如果有的話)。 實際的網址如下所示:

http://wordpressevents.com/music/some-band-youve-never-heard-of/

我的Drupal網站上也有部分(例如/ gigs /或/ classical /等)。

有什么辦法可以找出他們的網址,以便可以使用Python和BeautifulSoup進行抓取(歡迎其他建議)?

理想情況下,我會找出結構是什么...

http://drupalevents.com/drupost?=1 ... http://drupalevents.com/drupost?=10000

等等

但是,也許這樣行不通嗎?

在drupal中,唯一保證的內容url結構是/ node / [some number]

因此,對任意一個drupal站點執行此操作的最佳方法是從/ node / 1開始,然后從那里開始,每次遞增1。 或者,如果您查看站點上最新頁面的來源,並在body class標記中找到該頁面的節點ID,則您將知道最后一個數字並向后移動。 例如,在給定節點/ 185324的情況下,主體上可能具有類node-1853524。 這可能不存在,因為主體類可以是基於網站設置方式的任何東西。

大多數站點還使用pathauto模塊使頁面比node / 123更友好。

pathauto模塊基於站點構建器指定的內容使用令牌,以為內容提供漂亮的url。 一種常見的是/ content / [node:title]。 我懷疑這是否會對您有所幫助,但至少會為您提供有關如何設置Drupal網站的信息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM