[英]Solr and nutch. How to save seed?
嗨,我遵循了本教程
http://wiki.apache.org/nutch/NutchTutorial
它按預期工作。
如何保存已爬網頁面的種子到solr?
我希望能夠在solr中查詢單詞“ foobar”,並獲取所有導致包含該單詞的頁面的種子。 我想我必須在schema.xml中添加一個字段,但是我不知道文件中的行應該是什么。
我不知道Nutch有什么辦法實現這一目標; 您可以運行Nutch多次,每次運行時只有一個種子,然后通過以下方式將種子索引為Solr中的靜態字段:
<property>
<name>index.static</name>
<value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>
這會起作用,但是取決於種子之間的相互關系,您可能會花費更多的時間進行爬網(如果可以通過多個種子訪問一個頁面。在這種情況下,最后一個種子將是Solr中記錄的種子)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.