簡體   English   中英

如何在Eclipse中為SOLR配置Nutch

[英]How to configure Nutch in Eclipse for SOLR

我一直在尋找在Eclipse中為SOLR配置Nutch源代碼的方法。

因此,這里是我遵循的步驟,並且能夠成功配置它。

問候,

傑耶什·鮑亞爾(Jayesh Bhoyar)

結帳並構建Nutch:

1.使用終端從SVN獲取最新的源代碼。

對於Nutch 1.x(即trunk),運行以下命令:
svn co https://svn.apache.org/repos/asf/nutch/trunk

2.在“ conf / nutch-site.xml”中添加具有適當值的“ http.agent.name”和“ http.robots.agents”。

在這里,您必須將nutch-site.xml.template文件重命名為nutch-site.xml並進行相應的更改。

有關這些屬性的描述,請參見conf / nutch-default.xml。

3.此外,添加“ plugin.folders”並將其設置為{PATH_TO_NUTCH_CHECKOUT} / build / plugins。 例如。 如果Nutch位於“ /home/Desktop/2.x”,

將屬性設置為:

<property>
   <name>plugin.folders</name>
   <value>/home/Desktop/2.x/build/plugins</value>
</property>

當前沒有/ build / plugins文件夾。 但是,當您運行“ ant eclipse”命令時,您會在{PATH_TO_NUTCH_CHECKOUT}中獲得“ / build / plugins”。

這就是為什么將其寫為將絕對路徑設置為{PATH_TO_NUTCH_CHECKOUT} / build / plugins的原因。

不要在此處給出相對路徑,因為它不會。

4.運行以下命令:
蝕蝕

5,在Eclipse中加載項目

5.1。在Eclipse中,單擊“文件”->“導入...”

5.2。選擇“將現有項目放入工作區”

5.3。在下一個窗口中,將根目錄設置為簽出nutt 2.x(或主干)的位置。 點擊“完成”。

5.4。您現在將看到一個名為2.x(或主干)的新項目被添加到工作區中。 等待片刻,直到Eclipse刷新其SVN高速緩存並構建其工作區。 您可以在Eclipse的右下角看到狀態。

5.5。在Package Explorer中,右鍵單擊項目“ 2.x”(或主干),選擇“ Build Path”->“ Configure Build Path”

5.6。在“訂單和導出”選項卡中,向下滾動並選擇“ 2.x / conf”(或trunk / conf)。 點擊“頂部”按鈕。 可悲的是,Eclipse將再次構建工作空間,但這一次並不需要太多時間。

6.需要下載以下jar文件:

http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1

在eclipse中配置上述jar文件。

7.您將因“ ElasticsearchException”而收到一個錯誤。 將其更改為“ ElasticSearchException”(S大寫)

8,現在您可以在Eclipse中運行nutch代碼了:

8.1。讓我們從注入操作開始。

8.2。右鍵單擊“ Package Explorer”中的項目->選擇“ Run As”->選擇“ Run Configurations”。

8.3。創建一個新的配置。 將其命名為“注入”。

對於1.x即trunk:將主類設置為:org.apache.nutch.crawl.Injector

對於2.x:將主類設置為:org.apache.nutch.crawl.InjectorJob

8.4。 在“參數”選項卡中,對於程序參數,請提供具有種子URL的輸入目錄的路徑。

8.5。 將VM參數設置為“ -Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log”

8.6。 單擊“應用”,然后單擊“運行”。

8.7。 如果一切設置都完美,那么您應該會在控制台上看到注入操作的進度。

Nutch 1.x中的類(ietrunk)

注入:-org.apache.nutch.crawl.Injector

生成:-org.apache.nutch.crawl.Generator

獲取:-org.apache.nutch.fetcher.Fetcher

解析:-org.apache.nutch.parse.ParseSegment

Updatedb:-org.apache.nutch.crawl.CrawlDb

Nutch 2.x中的類

注入:-org.apache.nutch.crawl.InjectorJob

生成:-org.apache.nutch.crawl.GeneratorJob

提取:-org.apache.nutch.fetcher.FetcherJob

解析:-org.apache.nutch.parse.ParserJob

Updatedb:-org.apache.nutch.crawl.DbUpdaterJob

希望這可以幫助!!!!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM