[英]Indexing HTML with solr
我正在用小堅果爬進我們的大型網站,然后用solr編制索引,結果相當不錯。 但是,整個站點上有幾種菜單結構可以索引和破壞查詢結果。
每個菜單都在DIV中明確定義,因此<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
以及其他幾個菜單。
在某些時候,我需要刪除這些DIVS中的內容。
我猜測正確的地方是在通過solr進行索引編制期間,但無法確定如何進行。
模式看起來像(<div id="calendar">).*?(<\\/div>)
但我無法在<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\\/div>)" />
,我不確定如何將其放在schema.xml中。
當我確實將該模式放在schema.xml中時,不會解析。
我要添加此行,以便進行編輯
您是否看過solr中可用的HTML不同的HTML標記器?
http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory
他們應該幫助您解決此問題。 您不應該為html標簽本身編制索引。 但是,如果您需要唯一地標識某些標簽,則需要創建各個字段並將這些特殊標簽的內容存儲在這些字段中。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.