如何在Eclipse中為SOLR配置Nutch

Question

我一直在尋找在Eclipse中為SOLR配置Nutch源代碼的方法。

因此，這里是我遵循的步驟，並且能夠成功配置它。

問候，

傑耶什·鮑亞爾（Jayesh Bhoyar）

Answer 1

結帳並構建Nutch：

1.使用終端從SVN獲取最新的源代碼。

對於Nutch 1.x（即trunk），運行以下命令：
svn co https://svn.apache.org/repos/asf/nutch/trunk

2.在“ conf / nutch-site.xml”中添加具有適當值的“ http.agent.name”和“ http.robots.agents”。

在這里，您必須將nutch-site.xml.template文件重命名為nutch-site.xml並進行相應的更改。

有關這些屬性的描述，請參見conf / nutch-default.xml。

3.此外，添加“ plugin.folders”並將其設置為{PATH_TO_NUTCH_CHECKOUT} / build / plugins。 例如。 如果Nutch位於“ /home/Desktop/2.x”，

將屬性設置為：

<property>
   <name>plugin.folders</name>
   <value>/home/Desktop/2.x/build/plugins</value>
</property>

當前沒有/ build / plugins文件夾。 但是，當您運行“ ant eclipse”命令時，您會在{PATH_TO_NUTCH_CHECKOUT}中獲得“ / build / plugins”。

這就是為什么將其寫為將絕對路徑設置為{PATH_TO_NUTCH_CHECKOUT} / build / plugins的原因。

不要在此處給出相對路徑，因為它不會。

4.運行以下命令：
蝕蝕

5，在Eclipse中加載項目

5.1。在Eclipse中，單擊“文件”->“導入...”

5.2。選擇“將現有項目放入工作區”

5.3。在下一個窗口中，將根目錄設置為簽出nutt 2.x（或主干）的位置。 點擊“完成”。

5.4。您現在將看到一個名為2.x（或主干）的新項目被添加到工作區中。 等待片刻，直到Eclipse刷新其SVN高速緩存並構建其工作區。 您可以在Eclipse的右下角看到狀態。

5.5。在Package Explorer中，右鍵單擊項目“ 2.x”（或主干），選擇“ Build Path”->“ Configure Build Path”

5.6。在“訂單和導出”選項卡中，向下滾動並選擇“ 2.x / conf”（或trunk / conf）。 點擊“頂部”按鈕。 可悲的是，Eclipse將再次構建工作空間，但這一次並不需要太多時間。

6.需要下載以下jar文件：

http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1

在eclipse中配置上述jar文件。

7.您將因“ ElasticsearchException”而收到一個錯誤。 將其更改為“ ElasticSearchException”（S大寫）

8，現在您可以在Eclipse中運行nutch代碼了：

8.1。讓我們從注入操作開始。

8.2。右鍵單擊“ Package Explorer”中的項目->選擇“ Run As”->選擇“ Run Configurations”。

8.3。創建一個新的配置。 將其命名為“注入”。

對於1.x即trunk：將主類設置為：org.apache.nutch.crawl.Injector

對於2.x：將主類設置為：org.apache.nutch.crawl.InjectorJob

8.4。 在“參數”選項卡中，對於程序參數，請提供具有種子URL的輸入目錄的路徑。

8.5。 將VM參數設置為“ -Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log”

8.6。 單擊“應用”，然后單擊“運行”。

8.7。 如果一切設置都完美，那么您應該會在控制台上看到注入操作的進度。

Nutch 1.x中的類（ietrunk）

注入：-org.apache.nutch.crawl.Injector

生成：-org.apache.nutch.crawl.Generator

獲取：-org.apache.nutch.fetcher.Fetcher

解析：-org.apache.nutch.parse.ParseSegment

Updatedb：-org.apache.nutch.crawl.CrawlDb

Nutch 2.x中的類

注入：-org.apache.nutch.crawl.InjectorJob

生成：-org.apache.nutch.crawl.GeneratorJob

提取：-org.apache.nutch.fetcher.FetcherJob

解析：-org.apache.nutch.parse.ParserJob

Updatedb：-org.apache.nutch.crawl.DbUpdaterJob

希望這可以幫助！！！！

如何在Eclipse中為SOLR配置Nutch

問題描述

1 個解決方案

解決方案1
4 已采納

如何在Eclipse中為SOLR配置Nutch

問題描述

1 個解決方案

解決方案1 4 已采納

解決方案1
4 已采納