簡體   English   中英

Solr and Nutch-如何控制方面?

[英]Solr and Nutch - How to take control over Facets?

抱歉,這個問題可能太籠統了。 如果有文檔的鏈接,我將很高興。 Google不會幫我找到他們。

我需要了解如何從Nutch爬網然后由Solr索引的網站中提取構面。 在網站上,頁面具有元標記,例如<meta name="price" content="123.45"/><meta name="categories" content="category1, category2"/> 我可以告訴Nutch提取這些內容,然后讓Solr將其視為方面嗎?

在上面的示例中,我想手動指定將元名稱“類別”視為一個構面,但應將內容動態用作類別。

是否有意義? 是否可以與Nutch和Solr一起使用,還是我應該重新考慮使用它的方式?

我沒有使用過Nutch(我使用Heritrix),但最終,Nutch需要提取“元”標記值並在Solr中對其進行索引(使用SolrJ for ex),並使用不同的Solr字段“價格”, “類別”等

那你做

  • http:// localhost:8080 / solr / myrep / select?q = mobile&facet = true&facet.limit = 10&facet.field = categories

    獲取每個類別的方面。 這是有關方面的頁面:

  • http://wiki.apache.org/solr/SolrFaceting概述

  • 選項之一是對元數據插件使用nutch

    盡管僅作為示例提供,但它已包含在發行版中。 假設您了解使用nutch配置和爬網數據的其他過程,在建立索引之前,您需要配置nutch以使用像這樣的元數據插件。 編輯conf / nutch-site.xml

          <property>
             <name>plugin.includes</name>
             <value>urlmeta|(rest of the plugins)</value>
         </property>
    

    需要索引的元數據標簽(例如價格)可以作為另一個屬性提供

        <property>
           <name>urlmeta.tags</name>
             <value>price</value>
        </property>$
    

    現在,您可以運行nutch crawl命令。 在使用solr進行爬網和建立索引之后,您應該在索引中看到一個現場價格。 通過在查詢中添加facet.field可以使用構面搜索。

    這里是一些有趣的鏈接。

    1. 使用Solr的索引Nutch的數據鏈接: 鏈接
    2. Solr方面查詢的幫助鏈接: 鏈接

    暫無
    暫無

    聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

     
    粵ICP備18138465號  © 2020-2024 STACKOOM.COM