繁体   English   中英

螺母会爬过表格吗?

[英]Does nutch crawl over forms?

我想知道1.4是否可以直接使用表格爬取表单。 例如,如果有一个下拉列表,它将尝试从下拉列表中的项目中组合所有可能的页面吗?

谢谢

Nutch通过HTTP请求获取所需页面的html源。 现在,页面的html源可以包含在其中编码的下拉列表。 如果使用复杂的脚本(如dojo / ajax)进行编码,则它将无法像浏览器一样进行解释。 如果在html源代码中立即看到了下拉列表的外链,则nutch将使这些页面爬行。 除了正常的文本内容外,Nutch还对html页面的Java脚本部分进行解析。

现在进行验证,在bowser / wget中打开页面。 在文本编辑器(如记事本/ vi)中查看页面源。 您可以在此处看到“链接到下拉列表”的框吗? 如果是,则nutch将爬网那些外链,否则不会。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM