簡體   English   中英

使用Nutch如何抓取uisng ajax的網頁的動態內容?

[英]Using Nutch how to crawl the dynamic content of web page that are uisng ajax?

我正在使用Apache Nutch 1.10來抓取網頁並提取頁面中的內容。 一些鏈接包含在ajax調用時加載的動態內容。 Nutch無法抓取並提取ajax的動態內容。 我怎么解決這個問題? 有什么解決方案嗎? 如果是,請幫助我解答。

提前致謝。

大多數Web爬網程序庫都不提供開箱即用的javascript呈現。 您通常必須插入另一個提供js渲染的庫或產品,如Selenium或PhantomJS。

這是一個使用nutch和Selenium教程

查看最新的Nutch 1.11主干,其中包括一個新的插件協議 - 交互式硒。 https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium

這個插件允許你編寫自己的處理程序並執行javascript來獲取動態內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM