繁体   English   中英

Drupal URL结构进行抓取

[英]Drupal URL structure for scraping

过去,我尝试使用Python脚本抓取Drupal网站的音乐演出。

在使用wordpress网站进行此操作时,我将遍历如下网址:

http://wordpressevents.com/?p=1 ... http://wordpressevents.com/?p=10000

...这将使我转到可以抓取的页面(如果有的话)。 实际的网址如下所示:

http://wordpressevents.com/music/some-band-youve-never-heard-of/

我的Drupal网站上也有部分(例如/ gigs /或/ classical /等)。

有什么办法可以找出他们的网址,以便可以使用Python和BeautifulSoup进行抓取(欢迎其他建议)?

理想情况下,我会找出结构是什么...

http://drupalevents.com/drupost?=1 ... http://drupalevents.com/drupost?=10000

等等

但是,也许这样行不通吗?

在drupal中,唯一保证的内容url结构是/ node / [some number]

因此,对任意一个drupal站点执行此操作的最佳方法是从/ node / 1开始,然后从那里开始,每次递增1。 或者,如果您查看站点上最新页面的来源,并在body class标记中找到该页面的节点ID,则您将知道最后一个数字并向后移动。 例如,在给定节点/ 185324的情况下,主体上可能具有类node-1853524。 这可能不存在,因为主体类可以是基于网站设置方式的任何东西。

大多数站点还使用pathauto模块使页面比node / 123更友好。

pathauto模块基于站点构建器指定的内容使用令牌,以为内容提供漂亮的url。 一种常见的是/ content / [node:title]。 我怀疑这是否会对您有所帮助,但至少会为您提供有关如何设置Drupal网站的信息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM