繁体 English 中英

Drupal URL结构进行抓取

[英]Drupal URL structure for scraping

原文 2016-04-21 16:03:40 8 1 php/ python/ url/ drupal/ web-scraping

过去，我尝试使用Python脚本抓取Drupal网站的音乐演出。

在使用wordpress网站进行此操作时，我将遍历如下网址：

http://wordpressevents.com/?p=1 ... http://wordpressevents.com/?p=10000

...这将使我转到可以抓取的页面（如果有的话）。 实际的网址如下所示：

http://wordpressevents.com/music/some-band-youve-never-heard-of/

我的Drupal网站上也有部分（例如/ gigs /或/ classical /等）。

有什么办法可以找出他们的网址，以便可以使用Python和BeautifulSoup进行抓取（欢迎其他建议）？

理想情况下，我会找出结构是什么...

http://drupalevents.com/drupost?=1 ... http://drupalevents.com/drupost?=10000

等等

但是，也许这样行不通吗？

1 个解决方案

在drupal中，唯一保证的内容url结构是/ node / [some number]

因此，对任意一个drupal站点执行此操作的最佳方法是从/ node / 1开始，然后从那里开始，每次递增1。 或者，如果您查看站点上最新页面的来源，并在body class标记中找到该页面的节点ID，则您将知道最后一个数字并向后移动。 例如，在给定节点/ 185324的情况下，主体上可能具有类node-1853524。 这可能不存在，因为主体类可以是基于网站设置方式的任何东西。

大多数站点还使用pathauto模块使页面比node / 123更友好。

pathauto模块基于站点构建器指定的内容使用令牌，以为内容提供漂亮的url。 一种常见的是/ content / [node：title]。 我怀疑这是否会对您有所帮助，但至少会为您提供有关如何设置Drupal网站的信息。