[英]How to configure Nutch in Eclipse for SOLR
我一直在尋找在Eclipse中為SOLR配置Nutch源代碼的方法。
因此,這里是我遵循的步驟,並且能夠成功配置它。
問候,
傑耶什·鮑亞爾(Jayesh Bhoyar)
結帳並構建Nutch:
1.使用終端從SVN獲取最新的源代碼。
對於Nutch 1.x(即trunk),運行以下命令:
svn co https://svn.apache.org/repos/asf/nutch/trunk
2.在“ conf / nutch-site.xml”中添加具有適當值的“ http.agent.name”和“ http.robots.agents”。
在這里,您必須將nutch-site.xml.template文件重命名為nutch-site.xml並進行相應的更改。
有關這些屬性的描述,請參見conf / nutch-default.xml。
3.此外,添加“ plugin.folders”並將其設置為{PATH_TO_NUTCH_CHECKOUT} / build / plugins。 例如。 如果Nutch位於“ /home/Desktop/2.x”,
將屬性設置為:
<property>
<name>plugin.folders</name>
<value>/home/Desktop/2.x/build/plugins</value>
</property>
當前沒有/ build / plugins文件夾。 但是,當您運行“ ant eclipse”命令時,您會在{PATH_TO_NUTCH_CHECKOUT}中獲得“ / build / plugins”。
這就是為什么將其寫為將絕對路徑設置為{PATH_TO_NUTCH_CHECKOUT} / build / plugins的原因。
不要在此處給出相對路徑,因為它不會。
4.運行以下命令:
蝕蝕
5,在Eclipse中加載項目
5.1。在Eclipse中,單擊“文件”->“導入...”
5.2。選擇“將現有項目放入工作區”
5.3。在下一個窗口中,將根目錄設置為簽出nutt 2.x(或主干)的位置。 點擊“完成”。
5.4。您現在將看到一個名為2.x(或主干)的新項目被添加到工作區中。 等待片刻,直到Eclipse刷新其SVN高速緩存並構建其工作區。 您可以在Eclipse的右下角看到狀態。
5.5。在Package Explorer中,右鍵單擊項目“ 2.x”(或主干),選擇“ Build Path”->“ Configure Build Path”
5.6。在“訂單和導出”選項卡中,向下滾動並選擇“ 2.x / conf”(或trunk / conf)。 點擊“頂部”按鈕。 可悲的是,Eclipse將再次構建工作空間,但這一次並不需要太多時間。
6.需要下載以下jar文件:
http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1
在eclipse中配置上述jar文件。
7.您將因“ ElasticsearchException”而收到一個錯誤。 將其更改為“ ElasticSearchException”(S大寫)
8,現在您可以在Eclipse中運行nutch代碼了:
8.1。讓我們從注入操作開始。
8.2。右鍵單擊“ Package Explorer”中的項目->選擇“ Run As”->選擇“ Run Configurations”。
8.3。創建一個新的配置。 將其命名為“注入”。
對於1.x即trunk:將主類設置為:org.apache.nutch.crawl.Injector
對於2.x:將主類設置為:org.apache.nutch.crawl.InjectorJob
8.4。 在“參數”選項卡中,對於程序參數,請提供具有種子URL的輸入目錄的路徑。
8.5。 將VM參數設置為“ -Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log”
8.6。 單擊“應用”,然后單擊“運行”。
8.7。 如果一切設置都完美,那么您應該會在控制台上看到注入操作的進度。
Nutch 1.x中的類(ietrunk)
注入:-org.apache.nutch.crawl.Injector
生成:-org.apache.nutch.crawl.Generator
獲取:-org.apache.nutch.fetcher.Fetcher
解析:-org.apache.nutch.parse.ParseSegment
Updatedb:-org.apache.nutch.crawl.CrawlDb
Nutch 2.x中的類
注入:-org.apache.nutch.crawl.InjectorJob
生成:-org.apache.nutch.crawl.GeneratorJob
提取:-org.apache.nutch.fetcher.FetcherJob
解析:-org.apache.nutch.parse.ParserJob
Updatedb:-org.apache.nutch.crawl.DbUpdaterJob
希望這可以幫助!!!!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.