簡體 English 中英

Drupal URL結構進行抓取

[英]Drupal URL structure for scraping

原文 2016-04-21 16:03:40 1 1 php/ python/ url/ drupal/ web-scraping

過去，我嘗試使用Python腳本抓取Drupal網站的音樂演出。

在使用wordpress網站進行此操作時，我將遍歷如下網址：

http://wordpressevents.com/?p=1 ... http://wordpressevents.com/?p=10000

...這將使我轉到可以抓取的頁面（如果有的話）。 實際的網址如下所示：

http://wordpressevents.com/music/some-band-youve-never-heard-of/

我的Drupal網站上也有部分（例如/ gigs /或/ classical /等）。

有什么辦法可以找出他們的網址，以便可以使用Python和BeautifulSoup進行抓取（歡迎其他建議）？

理想情況下，我會找出結構是什么...

http://drupalevents.com/drupost?=1 ... http://drupalevents.com/drupost?=10000

等等

但是，也許這樣行不通嗎？

1 個解決方案

在drupal中，唯一保證的內容url結構是/ node / [some number]

因此，對任意一個drupal站點執行此操作的最佳方法是從/ node / 1開始，然后從那里開始，每次遞增1。 或者，如果您查看站點上最新頁面的來源，並在body class標記中找到該頁面的節點ID，則您將知道最后一個數字並向后移動。 例如，在給定節點/ 185324的情況下，主體上可能具有類node-1853524。 這可能不存在，因為主體類可以是基於網站設置方式的任何東西。

大多數站點還使用pathauto模塊使頁面比node / 123更友好。

pathauto模塊基於站點構建器指定的內容使用令牌，以為內容提供漂亮的url。 一種常見的是/ content / [node：title]。 我懷疑這是否會對您有所幫助，但至少會為您提供有關如何設置Drupal網站的信息。