Solr和堅果。如何保存種子？

Question

嗨，我遵循了本教程

http://wiki.apache.org/nutch/NutchTutorial

它按預期工作。

如何保存已爬網頁面的種子到solr？

我希望能夠在solr中查詢單詞“ foobar”，並獲取所有導致包含該單詞的頁面的種子。 我想我必須在schema.xml中添加一個字段，但是我不知道文件中的行應該是什么。

Answer 1

我不知道Nutch有什么辦法實現這一目標； 您可以運行Nutch多次，每次運行時只有一個種子，然后通過以下方式將種子索引為Solr中的靜態字段：

<property>
        <name>index.static</name>
        <value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>

這會起作用，但是取決於種子之間的相互關系，您可能會花費更多的時間進行爬網（如果可以通過多個種子訪問一個頁面。在這種情況下，最后一個種子將是Solr中記錄的種子）。

Solr和堅果。 如何保存種子？