簡體   English   中英

用Solr索引HTML

[英]Indexing HTML with solr

我正在用小堅果爬進我們的大型網站,然后用solr編制索引,結果相當不錯。 但是,整個站點上有幾種菜單結構可以索引和破壞查詢結果。

每個菜單都在DIV中明確定義,因此<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>以及其他幾個菜單。

在某些時候,我需要刪除這些DIVS中的內容。

我猜測正確的地方是在通過solr進行索引編制期間,但無法確定如何進行。

模式看起來像(<div id="calendar">).*?(<\\/div>)但我無法在<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\\/div>)" /> ,我不確定如何將其放在schema.xml中。

當我確實將該模式放在schema.xml中時,不會解析。

我要添加此行,以便進行編輯

您是否看過solr中可用的HTML不同的HTML標記器?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory

他們應該幫助您解決此問題。 您不應該為html標簽本身編制索引。 但是,如果您需要唯一地標識某些標簽,則需要創建各個字段並將這些特殊標簽的內容存儲在這些字段中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM