簡體   English   中英

Solr和堅果。 如何保存種子?

[英]Solr and nutch. How to save seed?

嗨,我遵循了本教程

http://wiki.apache.org/nutch/NutchTutorial

它按預期工作。

如何保存已爬網頁面的種子到solr?

我希望能夠在solr中查詢單詞“ foobar”,並獲取所有導致包含該單詞的頁面的種子。 我想我必須在schema.xml中添加一個字段,但是我不知道文件中的行應該是什么。

我不知道Nutch有什么辦法實現這一目標; 您可以運行Nutch多次,每次運行時只有一個種子,然后通過以下方式將種子索引為Solr中的靜態字段:

<property>
        <name>index.static</name>
        <value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>

這會起作用,但是取決於種子之間的相互關系,您可能會花費更多的時間進行爬網(如果可以通過多個種子訪問一個頁面。在這種情況下,最后一個種子將是Solr中記錄的種子)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM